You are on page 1of 93

UNIVERSIDADE FEDERAL DO CEARÁ

a CENTRO DE TECNOLOGIA
DEPARTAMENTO DE ENGENHARIA DE TELEINFORMÁTICA
CURSO DE ENGENHARIA DE COMPUTAÇÃO

JÚLIO PEIXOTO DA SILVA JÚNIOR

ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES


NEURAIS ARTIFICIAIS PARA DETECÇÃO DE CRISES CONVULSIVAS
EPILÉPTICAS

FORTALEZA
2016
JÚLIO PEIXOTO DA SILVA JÚNIOR

ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES NEURAIS


ARTIFICIAIS PARA DETECÇÃO DE CRISES CONVULSIVAS EPILÉPTICAS

Monografia apresentada ao Programa de


Graduação em Engenharia de Computação
do Departamento de Engenharia de Telein-
formática da Universidade Federal do Ceará,
como parte dos requisitos necessários para a
obtenção do tı́tulo de Engenheiro de Com-
putação.

Orientador: Prof. Dr.Guilherme Barreto

FORTALEZA
2016
Dados Internacionais de Catalogação na Publicação
Universidade Federal do Ceará
Biblioteca Universitária
Gerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)

S1a SILVA JUNIOR, JULIO PEIXOTO DA.


Análise De Desempenho De Arquiteturas De Redes Neurais Artificiais Dara Detecção De Crises
Convulsivas Epilépticas / JULIO PEIXOTO DA SILVA JUNIOR. – 2016.
92 f. : il. color.

Trabalho de Conclusão de Curso (graduação) – Universidade Federal do Ceará, Centro de Tecnologia,


Curso de Arquitetura e Urbanismo, Fortaleza, 2016.
Orientação: Prof. Dr. Guilherme de Alencar Barreto.

1. Redes Neurais. 2. Extração de Features. 3. Densidade Espectral de Potência. 4. Crises Convulsivas


Epilépticas. 5. Modelo Autorregressivo. I. Título.
CDD 720
JÚLIO PEIXOTO DA SILVA JÚNIOR

ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES NEURAIS


ARTIFICIAIS PARA DETECÇÃO DE CRISES CONVULSIVAS EPILÉPTICAS

Monografia apresentada ao Programa de


Graduação em Engenharia de Computação
do Departamento de Engenharia de Telein-
formática da Universidade Federal do Ceará,
como parte dos requisitos necessários para a
obtenção do tı́tulo de Engenheiro de Com-
putação.

Orientador: Prof. Dr.Guilherme Barreto

Aprovada em: 12 / 12 / 2016.

BANCA EXAMINADORA

Prof. Dr. Guilherme de Alencar Barreto (Orientador)


Universidade Federal do Ceará (UFC)

Prof. Dr. Tarcı́sio Ferreira Maciel


Universidade Federal do Ceará (UFC)

Prof Dr. João Paulo do Vale Madeiro


Universidade da Integração Internacional da Lusofonia Afro-Brasileira (UNILAB)
1

Dedico este trabalho aos meus pais.


AGRADECIMENTOS

Aos meus pais por todos os esforços, ajuda e apoio durante todo o curso.
A todos os meus colegas de turma que entraram em 2012.1 na Engenharia de
Teleinformática e mais outros que foram se agregando no caminhar do curso.
Um grande agradecimento aos meus amigos Marcelo Mauro e ao Antônio Júlio,
esses dois caras que sempre me apoiaram e estiveram comigo em diversas batalhas.
Aos professores que lutaram pelo curso noturno, em especial ao inesquecı́vel
Alexandre Moreira (Sobral). Um grande agradecimento aos professores Alexandre Coelho,
Tarcı́sio Costa e Jardel Silveira, que além grandes professores, orientaram-me com vários
conselhos nessa trajetória.
Ao professor Guilherme Barreto, pela excelente orientação e pela oportunidade.
Agradeço por todas as adversidades encontradas nessa caminhada, cada uma
delas me tornou mais forte e persistente. Dos cinco anos deste curso, quatro foram
trabalhando e não foi fácil, saio de cabeça erguida para as próximas batalhas.
1

”Os homens pensam que a epilepsia é divina


meramente porque não a compreendem. Se
eles denominassem divina qualquer coisa que
não compreendem, não haveria fim para as
coisas divinas”.
Hipócrates
RESUMO

As convulsões por crises epiléticas atingem um grande número de pessoas, cerca de 5%


da população mundial já sofreu algum tipo de convulsão. Atualmente existem diversos
exames para o diagnóstico da epilepsia. Entre eles, podemos citar o magnetoencefalo-
grama (MEG), a ressonância magnética funcional e o eletroencefalograma (EEG). Porém
o EEG ainda é o exame mais comumente utilizado para executar o diagnóstico. O EEG de
escalpo é um exame no qual são gravados os sinais elétricos da ativação cerebral captados
por eletrodos no couro cabeludo. Pelo fato da ativação cerebral conter diversas variações,
dependendo de paciente para paciente e da posição do eletrodos, esse diagnóstico é de
extrema dificuldade para os profissionais da área. O presente trabalho consiste em utili-
zar um método de aprendizado de máquina, com o uso de redes neurais para realizar a
detecção em intervalos de sinais de pacientes pediátricos, em que serão comparadas duas
arquiteturas: Multilayer Perceptron (MLP) e Extreme Learning Machine (ELM). Para
realizar a classificação um ponto chave é a extração dos atributos do sinal. O trabalho
destaca que a literatura dispões de diversas técnicas de extração de atributos do sinal
EEG, não existindo um padrão ouro. São apresentadas duas técnicas de extração: Densi-
dade Espectral de Potência (PSD), a qual se utiliza o método de Welch, e a estimação de
parâmetros dos coeficiente de um método autorregressivo (AR). Os resultados com uso
PSD utilizando redes neurais obtiveram de taxas de acerto próximas a 98% e já com a
estimação dos parâmetros do modelo AR com ordem 4 taxas de acerto próximas a 96%
em dois dos três pacientes submetidos aos testes.

Palavras-chave: Eletroencefalograma (EEG). Crises Epiléticas. Redes Neurais. Mul-


tilayer Perceptron (MLP). Extreme Learning Machine (ELM). Extração de Atributos.
Densidade Espectral de Potência (PSD). Método de Welch. Método Autorregressivo
(AR).
ABSTRACT

Seizures due to epileptic crisis reach a large number of people, around 5% of the world
population has already suffered some kind of seizure. There are several exams for the
diagnosis of epilepsy, such as magnetic resonance imaging (MRI), functional magnetic
resonance imaging (FMRI) and electroencephalogram (EEG), the EEG being the most
commonly used diagnostic test. Concerning scalp EEG, the electrical signals of the ce-
rebral activation are acquired by electrodes on the scalp. Because cerebral activation
contains several variations, depending from patient to patient and the position of the
electrodes, this diagnosis is extremely difficult for professionals in the area. This work
consists in using a machine learning method based on neural networks. Two architectures:
Multilayer Perceptron (MLP) and Extreme Learning Machine (ELM), will be compared
to perform the detection of seizures and classification of EEG signals from pediatric pa-
tients. To perform the classification, a key point is the extraction of signal attributes.
This work highlights that there are several techniques for extracting attributes from EEG
and a gold standard is not available. Two extraction techniques will be presented and
compared: Power Spectral Density (PSD), using the Welch method, and the estimation
of the coefficients of an autoregressive (AR) method. The results with use PSD using
neural nets had obtained of fees of rightness next to 98 % and already with the esteem
to the parameters of the model AIR with order 4 fees of 96% rightness next to in two to
the three patients submitted to the tests.
Keywords: Electroencephalogram (EEG), Epileptic Crisis, Neural Networks, Multilayer
Perceptron (MLP), Extreme Learning Machine (ELM), Power Spectral Density (PSD),
Autorregresive Model.
LISTA DE FIGURAS

Figura 1 – Exemplo de um sinal EEG. . . . . . . . . . . . . . . . . . . . . . . . . . 14


Figura 2 – Metodologia do trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 3 – Componentes de um neurônio. . . . . . . . . . . . . . . . . . . . . . . . 19
Figura 4 – Ativação de um neurônio . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Figura 5 – Sinapse elétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Figura 6 – Quatro principais ritmos cerebrais . . . . . . . . . . . . . . . . . . . . . 22
Figura 7 – 32-Channel Digital Video EEG Machine . . . . . . . . . . . . . . . . . . 23
Figura 8 – Touca de eletrodos para EEG . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 9 – Padrão 10-20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 10 – Exemplo de EEG com crise epilética em um paciente A. . . . . . . . . . 28
Figura 11 – Exemplo de EEG com crise epilética em um paciente B. . . . . . . . . . 28
Figura 12 – Exemplo de EEG com crise epilética em um paciente C. . . . . . . . . . 28
Figura 13 – Modelo de Neurônio Artificial. . . . . . . . . . . . . . . . . . . . . . . . 40
Figura 14 – Classificador de Padrões. . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Figura 15 – Arquitetura MLP multicamadas. . . . . . . . . . . . . . . . . . . . . . . 43
Figura 16 – Arquitetura MLP com uma camada oculta. . . . . . . . . . . . . . . . . 43
Figura 17 – Fluxo de dados na rede MLP. . . . . . . . . . . . . . . . . . . . . . . . 44
Figura 18 – Realimentalação do Algoritmo LMS. . . . . . . . . . . . . . . . . . . . . 46
Figura 19 – Objetivos da rede ELM. . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 20 – Arquitetura rede ELM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 21 – Metodologia utilizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Figura 22 – Processo de extração de parâmetros utilizando o método Welch. . . . . 54
Figura 23 – Processo estimação dos parâmetros de um modelo AR(p). . . . . . . . . 60
Figura 24 – Etapas de implementação da Rede Neural MLP. . . . . . . . . . . . . . 63
Figura 25 – Etapas de implementação da Rede Neural ELM. . . . . . . . . . . . . . 64
LISTA DE GRÁFICOS

Gráfico 1 – Intervalo de cinco segundos de sinal do EEG (canal 1). . . . . . . . . . 30


Gráfico 2 – Intervalo sem o evento de crise. . . . . . . . . . . . . . . . . . . . . . . 31
Gráfico 3 – Intervalo com o evento de crise. . . . . . . . . . . . . . . . . . . . . . . 31
Gráfico 4 – Exemplos de janelas no periodograma modificado. . . . . . . . . . . . . 35
Gráfico 5 – Janela gaussiana(128). . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Gráfico 6 – Janela Black Manharris(128). . . . . . . . . . . . . . . . . . . . . . . . . 55
Gráfico 7 – PSD estimada utilizando janela gaussiana(128). . . . . . . . . . . . . . 55
Gráfico 8 – PSD estimada utilizando janela Black Manharris(128). . . . . . . . . . . 56
Gráfico 9 – PSD estimada utilizando janela gaussiana(64) . . . . . . . . . . . . . . . 56
Gráfico 10 –PSD estimada utilizando janela Black Manharris(64). . . . . . . . . . . 57
Gráfico 11 –PSD estimada em um intervalo de crise epiléptica. . . . . . . . . . . . . 57
Gráfico 12 –Função de autocorrelação de 10 segundos de EEG. . . . . . . . . . . . . 58
Gráfico 13 –Função de autocorrelação parcial do EEG. . . . . . . . . . . . . . . . . 59
Gráfico 14 –Curva de aprendizado da rede MLP, cenário B. . . . . . . . . . . . . . . 70
Gráfico 15 –Box Plot da taxa de acerto dos cenários para o paciente 1. . . . . . . . 76
Gráfico 16 –Box Plot da taxa de acerto dos cenários para o paciente 5. . . . . . . . 77
Gráfico 17 –Box Plot da taxa de acerto dos cenários para o paciente 8. . . . . . . . 78
LISTA DE TABELAS

Tabela 1 – Identificação dos Eletrodos . . . . . . . . . . . . . . . . . . . . . . . . . 25


Tabela 2 – Configurações dos Canais . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Tabela 3 – Vetor de caracterı́sticas para os intervalos. . . . . . . . . . . . . . . . . 58
Tabela 4 – Cenários propostos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Tabela 5 – Dados estatı́sticos referentes à taxa de acertos - Cenário A. . . . . . . . 67
Tabela 6 – Matrizes de Confusão para os melhores resultados do Cenário A. . . . . 68
Tabela 7 – Resultados do teste de desempenho para o cenário A. . . . . . . . . . . 68
Tabela 8 – Dados estatı́sticos percentuais referentes à taxa de acertos - Cenário B. 68
Tabela 9 – Matrizes de Confusão para os melhores resultados do Cenário, AR(2). . 69
Tabela 10 – Matrizes de Confusão para os melhores resultados do Cenário B, AR(4). 69
Tabela 11 – Resultados do teste de desempenho para o cenário B, AR(2). . . . . . . 69
Tabela 12 – Resultados do teste de desempenho para o cenário B, AR(4). . . . . . . 70
Tabela 13 – Dados estatı́sticos percentuais referentes à taxa de acertos - Cenário C. 70
Tabela 14 – Matrizes de Confusão para os melhores resultados do Cenário C. . . . . 71
Tabela 15 – Resultados do teste de desempenho para o cenário C. . . . . . . . . . . 71
Tabela 16 – Dados estatı́sticos referentes à taxa de acertos - Cenário D. . . . . . . . 71
Tabela 17 – Matrizes de Confusão para os melhores resultados do Cenário D, AR(2). 72
Tabela 18 – Matrizes de Confusão para os melhores resultados do Cenário D, AR(4). 72
Tabela 19 – Resultados do teste de desempenho para o cenário D, AR(2). . . . . . . 72
Tabela 20 – Resultados do teste de desempenho para o cenário D, AR(4). . . . . . . 72
Tabela 21 – Dados estatı́sticos referentes à taxa de acertos - Cenário E. . . . . . . . 73
Tabela 22 – Matrizes de Confusão para os melhores resultados do Cenário E. . . . . 73
Tabela 23 – Resultados do teste de desempenho para o cenário E. . . . . . . . . . . 74
Tabela 24 – Dados estatı́sticos referentes à taxa de acertos - Cenário F. . . . . . . . 74
Tabela 25 – Matrizes de Confusão para os melhores resultados do Cenário F, AR(2). 74
Tabela 26 – Matrizes de Confusão para os melhores resultados do Cenário F, AR(4). 75
Tabela 27 – Resultados do teste de desempenho para o cenário F, AR(2). . . . . . . 75
Tabela 28 – Resultados do teste de desempenho para o cenário F, AR(4). . . . . . . 75
Tabela 29 – Comparação dos cenários para o paciente 1. . . . . . . . . . . . . . . . . 76
Tabela 30 – Comparação dos cenários para o paciente 5. . . . . . . . . . . . . . . . . 77
Tabela 31 – Comparação dos cenários para o paciente 8. . . . . . . . . . . . . . . . . 77
Tabela 32 – Crises epilépticas convulsivas detectadas para o paciente 1 . . . . . . . . 92
Tabela 33 – Crises epilépticas convulsivas detectadas para o paciente 5. . . . . . . . 92
Tabela 34 – Crises epilépticas convulsivas detectadas para o paciente 8. . . . . . . . 92
SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Resumo do Capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 ELETROENCEFALOGRAMA (EEG) . . . . . . . . . . . . . . . 18
2.1 Introdução ao EEG . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Fundamentos Fisiológicos do Eletroencefalograma . . . . . . . . 19
2.3 Ritmos Cerebrais . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Medições e Gravação do EEG . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Padrão Convencional de Posição dos Eletrodos (10-20) . . . . . 24
2.5 Banco de Dados Utilizado . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Detecção de Ataque Epilético no EEG . . . . . . . . . . . . . . . 27
2.7 Resumo do Capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 MÉTODOS DE EXTRAÇÃO DE ATRIBUTOS . . . . . . . . . 30
3.1 Caracterı́sticas do Sinal EEG . . . . . . . . . . . . . . . . . . . . 30
3.2 Densidade Espectral de Potência (PSD) . . . . . . . . . . . . . . 32
3.3 Estimação de Parâmetros de um Modelo Autorregressivo . . . 37
3.4 Resumo do Capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 CLASSIFICADORES BASEADOS EM REDES NEURAIS . . 40
4.1 Introdução a Redes Neurais . . . . . . . . . . . . . . . . . . . . . 40
4.2 Definições Preliminares . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Fundamentos da Rede Neural MLP . . . . . . . . . . . . . . . . 42
4.4 Fundamentos da Rede Neural ELM . . . . . . . . . . . . . . . . 48
4.5 Resumo do Capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 IMPLEMENTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1 Metodologia Utilizada . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Extração de Atributos . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Implementação dos Classificadores . . . . . . . . . . . . . . . . . 61
5.4 Resumo do Capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6 RESULTADOS OBTIDOS . . . . . . . . . . . . . . . . . . . . . . 67
7 CONCLUSÕES E DISCUSSÕES . . . . . . . . . . . . . . . . . . 79
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
APÊNDICE A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
ANEXO A – CATÁLOGO DOS DADOS ANALISADOS . . . 92
13

1 INTRODUÇÃO

A epilepsia afeta milhões de pessoas mundialmente, tornando-se um pro-


blema de saúde pública, por ser uma condição neurológica crônica grave comum no
mundo, estimando-se que haja centenas de milhões de pessoas com esta condição. Crises
epilépticas são eventos clı́nicos nos quais ocorre uma disfunção temporária de um conjunto
de neurônios do encéfalo (crises focais) ou em áreas mais extensas (crises generalizadas),
em que os sintomas de cada crise dependerão das partes do cérebro envolvidas na disfunção
(KANASHIRO, 2006).
Sabendo-se que a epilepsia é o transtorno neurológico mais frequente que aco-
mete pessoas de todas as raças, gêneros, condições socioeconômicas e regiões, os porta-
dores desse transtorno podem sofrer consequências profundas, incluindo-se morte súbita,
ferimentos, problemas psicológicos e outros transtornos mentais. Portanto, o estudo desse
transtorno é importante, por ser considerado um problema significativo de saúde pública
no Brasil e no mundo.
Atualmente, a detecção de ataques epiléticos e o diagnóstico são realizados
por neurologistas com base em exames visuais dos eletroencefalogramas (EEG). O EEG,
introduzido no inı́cio do século passado por Hans Berger, desde então vem sendo utilizado
para o diagnóstico de diversas patologias associadas a transtornos mentais. De fato, a
epilepsia é um transtorno neurológico associado a alterações neuronais, que resultam em
potenciais eletromagnéticos detectáveis (descargas epileptiformes), que podem ser mensu-
rados através de eletrodos localizados no escalpo. Esses sinais são de baixı́ssima amplitude
sendo necessário um circuito amplificador para que o sinal seja processado e analisado.
O desafio para os neurologistas está no fato de que a atividade cerebral do
ser humano apresenta uma infinidade de padrões de ativações. Os estados considerados
anormais são observados em desordem neurológica, incluindo crises convulsivas no caso
de epilepsia e demência em outros casos. Segundo ADELI e GHOSH-DASTIDAR 2010,
existem três fatores que tornam infinitas as possibilidades de padrões de atividade cere-
bral. Primeiramente, cada estado tem graus diferentes de magnitude, em segundo lugar,
a atividade do cérebro em qualquer estado é modulada em funções cerebrais com alta
atividade, e por fim, a atividade do cérebro em geral não é devido a um só estado mental,
mas sim a uma soma de diferentes estados e ações em um instante de tempo.
O EEG utilizou durante muito tempo o registo feito por oscilógrafos, os quais
utilizavam tinta para realizar a inscrição. Com o avanço da tecnologia nas últimas décadas,
ocorreu um grande avanço na aquisição, gravação e no processamento digital de sinais e
imagens do corpo humano, fatores essenciais para o diagnóstico precoce de uma variedade
de doenças. Pode-se citar uma gama de exemplos, além do EEG, tais como: o eletrocardi-
ograma para o coração, eletromiograma para os músculos, magnetoencefalograma para o
cérebro, eletrogastrograma para o estômago, eletrioptigrama para o nervo óptico, e outros
14

como a ultrassonografia, tomografia computadorizada, ressonância magnética etc.


Sabe-se que o sinal EEG digitalizado deriva-se da conversão de um sinal
analógio para digital utilizando um conversor analógico digital (ADC). Normalmente,
a resolução utilizada nos sistemas de gravação do EEG é de 16 bits. Com um simples
cálculo, pode-se verificar qual o tamanho do arquivo de gravação. Considere, por exemplo,
uma gravação em um paciente utilizando 23 eletrodos a uma taxa de amostragem de 500
amostras por segundo em um perı́odo de uma hora com a resolução de 16 bits. O tama-
nho do arquivo gerado será de 23x60x60x500x16 = 662 Mbits (SANEI e CHAMBERS,
2007). Assim, é necessário um processamento digital de sinal com o objetivo de extrair
informações, caracterı́sticas e comportamentos que melhor representem esse sinal e que
possam ser manipulados e armazenados facilmente.

Figura 1 – Exemplo de um sinal EEG.

Fonte: CHB-MIT Scalp EEG Database (2016).

Uma caracterı́stica, atributo ou feature de um sinal é uma propriedade distinta


que possa ser mensurável e que tenha um componente funcional obtido em parte ou no
sinal por completo. A extração de atributos é utilizada para reduzir a perda de dados im-
portantes que estão embutidos em um sinal, ocasionando uma menor complexidade para
a manipulação, reduzindo o custo computacional e o tamanho do dado a ser armazenado
(CVETKOVIC, UBEYLI e COSIC, 2008). Após a captação, digitalização e segmentação
15

do sinal do EEG aplica-se o processamento de extração de caracterı́sticas no sinal e fi-


nalmente pode-se utilizar essas informações para classificação, com uma abordagem de
análise linear ou não linear, tais como técnicas Fuzzy e classificadores de redes neurais.

1.1 Objetivos

Observando-se o grande problema de saúde relacionado com transtornos men-


tais, principalmente a epilepsia, e o desafio para os neurologistas em realizarem di-
agnósticos visualmente através do EEG, este trabalho avalia e compara métodos de ex-
tração de atributos de um sinal EEG, utilizando-se os métodos do periodograma de Welch,
Fast Fourier Transform (FFT) para estimar a densidade espectral de potência (PSD) e a
estimação dos parâmetros de um modelo autorregressivo. Por fim, os atributos extraı́dos
serão utilizados em um sistema classificador com o intuito de mensurar a eficiência dos
métodos aplicados por meio de comparação de métricas.
Como objetivos secundários, estão o desenvolvimento de funções para os métodos
utilizados no trabalho, juntamente com os algoritmos de classificação em redes neurais,
e um maior aprofundamento matemático nos métodos aplicados com os conhecimentos
adquiridos nas disciplinas de processamentos de sinais e em processos estocásticos.

1.2 Metodologia

Realizou-se uma revisão bibliográfica abordando-se os principais tópicos que


embasaram o desenvolvimento do trabalho: o eletroencefalograma (EEG), os métodos de
extração de features e redes neurais. A revisão bibliografia serve de base de conhecimento
para a obtenção dos objetivos citados no trabalho.
Outro ponto importante a se destacar na metodologia é a utilização de um
banco de dados de arquivos provenientes de exames EEG, agrupados em 24 pacientes
com idade des 1,5 a 18 anos. Os exames estão em arquivos de dados do tipo .EDF, totali-
zando 686 arquivos (aproximadamente 32Gb de dados). Os arquivos apresentam duração
média de uma hora, chegando a ter gravações de até quatro horas no máximo, depen-
dendo do quadro de crises epiléticas do paciente. Foi constatado que em 141 arquivos
ocorreram crises epiléticas, gerando um total de aproximadamente 200 minutos de crises
epiléticas distribuı́das entre os pacientes, no Anexo A está apresentado um catálogo do
dados. Os arquivos utilizados pertencem ao projeto CHB-MIT Scalp EEG Database e po-
dem ser acessados através do site: https://www.physionet.org/pn6/chbmit/. Dentre
outros trabalhos com o uso desse banco de dados, pode-se destacar o trabalho intitulado
Application of Machine Learning To Epileptic Seizure Detection dos autores SHOEB e
GUTTAG (2010).
Após a obtenção dos dados citados acima, é realizada a escolha e o treinamento
dos modelos de classificação mais adequados para o problemas, com o processamento dos
16

dados para a obtenção das caracterı́sticas utilizando-se os dois métodos citados anteri-
ormente. Para realizar a comparação entre os métodos de extração dos atributos, os
resultados são validados em testes exaustivos dos modelos de classificação escolhidos, uti-
lizando ferramentas estatı́sticas para a devida comparação dos resultados. Na Figura 2,
é apresentado um diagrama básico da metodologia que é aplicada no trabalho.
Figura 2 – Metodologia do trabalho.

Fonte: Elaborada pelo autor.

1.3 Estrutura do Trabalho

O trabalho se divide em duas partes, em que a primeira parte é dedicada à re-


visão bibliográfica. No capı́tulo 2, será apresentado o Eletroencefalograma, destacando-se
um breve histórico, caracterı́sticas das atividades neurais do cérebro, processo de aquisição
dos sinais, padrão 10-20 da distribuição da localização dos eletrodos, bandas ou ritmos
cerebrais e por fim identificação das caracterı́sticas (features) necessárias.
O capı́tulo 3 irá apresentar os dois métodos de extração de features que serão
utilizados. Será apresentado inicialmente a densidade espectral de potência através do
periodograma, destacando o formalismo matemático e a implementação em código para
analisar a densidade espectral de potência (PSD) estimada. Por fim será apresentado uma
abordagem utilizando o modelo autorregressivo. Pode-se destacar como caracterı́stica fun-
damental de um processo autorregressivo o fato da observação atual estar correlacionada
com a observação anterior, ou seja, assume-se uma correlação significativa entre as ob-
servações anteriores.
No capı́tulo seguinte serão abordadas as redes neurais artificiais (RNAs) na
tarefa de classificação de padrões. As RNAs são ferramentas eficientes no tratamento
de problemas não lineares em processamento de sinais. Existem diversas aplicações do
uso das RNAs em classificação de padrões na área médica, tais como reconhecimento
de imagens aplicado em exames de raio-X e ultrassonografia, diagnósticos de patologias
cardiorrespiratórias, entre outras. Nesse trabalho em particular serão utilizadas duas
arquiteturas de redes neurais: Extreme Learnin Machime (ELM) e Multilayer Perceptron
(MLP).
No quinto capı́tulo será apresentada a implementação dos dois métodos de ex-
tração de atributos e dos classificadores propostos, com a análise quantitativa e qualitativa
dos resultados, apresentando-se as ferramentas e algoritmos computacionais utilizados
No sexto capı́tulo, serão apresentados os resultados obtidos em cada cenário
proposto e por fim apresentaremos a conclusão do trabalho, discutindo-se sobre os obje-
tivos alcançados, resultados e trabalhos futuros a respeito do tema abordado.
17

1.4 Resumo do Capı́tulo

Este capı́tulo apresentou a importância e a dimensão do estudo referentes à


saúde pública de milhões de pessoas que sofrem com distúrbios cerebrais, principalmente
a epilepsia. Destacou-se o objetivo do trabalho e as suas justificativas, apresentando-se a
metodologia que será utilizada e por fim como o trabalho encontra-se estruturado.
O próximo capı́tulo apresenta o Eletroencefalograma (EEG), um breve histórico,
suas caracterı́sticas, atividade cerebral, geração do EEG, ritmos cerebrais, métodos de
gravação do EEG e detecção de patologias, em especial a epilepsia.
18

2 ELETROENCEFALOGRAMA (EEG)

Este capı́tulo irá apresentar as principais caracterı́sticas do eletroencefalo-


grama, destacando-se as atividades e os ritmos cerebrais. Serão discutidos os métodos
de gravação do EEG, a convenção da posição dos eletrodos (padrão comumente chamado
de 10-20) e por fim as caracterı́sticas eletrográficas de anormalidades detectadas no EEG,
destacando-se a epilepsia.

2.1 Introdução ao EEG

A atividade cerebral humana inicia-se entre a decima sétima e vigésima ter-


ceira semana de formação. Então, a compreensão das funções neuronais e atividades
neurofisiológicas do cérebro, somado com os principais mecanismo para a gravação e a
interpretação da atividade elétrica do cérebro, é de fundamental importância para o di-
agnóstico e o tratamento de distúrbios cerebrais, entre eles o objeto de estudo deste
trabalho, a epilepsia.
Atualmente, os principais métodos utilizados para realizar a gravação e verifi-
car as alterações funcionais e fisiológicas do cérebro humano são: o eletroencefalograma
(EEG), o magnetoencefalograma (MEG) e a ressonância magnética funcional (FMRI, do
Inglês Functional Magnetic Ressonance Imaging). Cada um desse exames apresentam
suas vantagens e desvantagens de acordo com cada tipo de distúrbio. Porém, de fato, a
maior porção dos exames realizados baseiam-se no EEG, por conta da menor complexi-
dade em relação a outros exames. O EEG é uma excelente ferramenta para a exploração
da atividade neuronal do cérebro, associada a mudanças sı́ncronas dos potenciais elétricos
da membrana dos neurônios vizinhos.
Hans Berger (1873-1941) iniciou o estudo de sinais EEG em humanos em 1920.
Usando um galvanômetro com uma sensibilidade de 130 µV/cm, fez a primeira gravação
do EEG com cerca de três minutos de duração. Na década de 50, os trabalhos com EEG
expandiram em todo o mundo, sendo impulsionados com a popularização de cirurgia para
remover focos epiléticos. Nessa década, também os eletrodos utilizados no EEG evoluı́ram,
com o uso de materiais como tungstênio, e com eletrólitos como cloreto de potássio, com
diâmetros de cerca de 3µm (SANEI and CHAMBERS, 2007).
Diversos avanços tecnológicos permitiram grandes aprimoramentos no registro
do eletroencefalograma, tais como os sistemas digitais, os registros sincronizados com
vı́deo, a utilização dos sistemas de multicanais, chegando-se atualmente aos equipamentos
com monitoramento remoto e portáteis. O uso da avaliação rotineira do EEG de superfı́cie
é o cenário mais comum na prática da epileptologia clı́nica, sendo o mais utilizado para o
diagnóstico e condução do tratamento da maior parte das sı́ndromes epilépticas. O EEG
é o meio de diagnóstico mais frequentemente utilizado para estudo da epilepsia, sendo
19

também o menos dispendioso.

2.2 Fundamentos Fisiológicos do Eletroencefalograma

O sistema nervoso é composto por uma rede de células especializadas deno-


minadas neurônios, que juntas comunicam-se e processam informações do corpo e do
ambiente externo, tomadas de decisões, entre outras funções. Na maioria dos seres vivos
o sistema nervoso é dividido em sistema nervoso central (SNC) e sistema nervoso periférico
(SNP).
Os neurônios (Figura 3) transmitem potenciais elétricos para outras células ao
longo das finas fibras denominadas axônios, que utilizam substâncias quı́micas chamadas
neurotransmissores para permitir a função neuronal, chamada sinapse. Estes potenci-
ais elétricos são chamados de “potenciais de ação”ou “impulso nervoso”, e podem ser
interpretados como a informação transmitida por um nervo a uma célula.

Figura 3 – Componentes de um neurônio.

Fonte: http://www.infoescola.com/biologia/tecido-nervoso/ ,
acesso em outubro de 2016.

Os potenciais de ação são causados por uma troca de ı́ons através da membrana
do neurônio, ou seja, é uma mudança temporária no potencial elétrico da membrana que
é transmitida ao longo do axônio. Geralmente é iniciado no corpo celular e se propaga
somente em uma direção (dendritos, corpo celular e por fim axônio). Ao despolarizar
o potencial da membrana do neurônio, tornando-a mais positiva, produz um pico de
potencial também denominado disparo ou ativação. Após chegar ao ponto máximo do
pico, ocorrerá a repolarização da membrana, tornando-se mais negativa. O potencial
elétrico se torna mais negativo do que o referencial de repouso e em seguida retorna ao
nı́vel de repouso. Esse ciclo dura em torno de 5 a 10 ms. Na Figura 4, é apresentado um
exemplo de um disparo.
Os valores de pico do potencial elétrico são variáveis devido ao processo de
sinapse. A sinapse, apresentada na Figura 5, é a transmissão de um sinal elétrico ou
quı́mico entre dois neurônios. O neurônio que inicia a transmissão ou alteração é deno-
minado pré-sináptico e o que sofre a ação é denominado o pós-sináptico. As sinapses,
inicialmente estudadas na década de 50, podem ser elétricas ocasião na qual apresentam
20

Figura 4 – Ativação de um neurônio .

Fonte: (SHARMA et al., 2012).

transmissão de um impulso elétrico sem o processamento de informação. Esse tipo de


sinapse é responsável pela sincronização da atividade neuronal.

Figura 5 – Sinapse elétrica .

Fonte: (BORGES et al., 2015).

Através da sinapse é possı́vel efetuar a medição do EEG. Esse sinal é o resul-


tado da medição das correntes de excitação sinápticas que fluem dos dendritos de muitos
neurônios piramidais do córtex cerebral. Quando os neurônios estão ativados, as correntes
sinápticas geram um campo magnético mensurável por uma eletromiografia e um campo
elétrico secundário sobre o couro cabeludo, que pode ser medido através de um EEG.
As duas formas principais de ativação neuronal são a despolarização rápida das
membranas neuronais, que resultam no potencial de ação, e as mudanças lentas no poten-
cial de membrana devidas à ativação sináptica, ocasionada pelo somatório do potencial
pós-sináptico excitatório (EPSP) e o potencial pós-sináptico inibitório (IPSP).
Assim, a atividade do EEG representa o somatório da atividade sı́ncrona de um
conjunto de milhões de neurônios que têm uma orientação espacial semelhante. Portanto,
a atividade do EEG apresenta as oscilações em uma variedades de frequências de uma
rede de neurônios. Quando as ondas de ı́ons no escalpo atinge o eletrodo, a diferença de
potencial elétrico entre o eletrodo que se deseja medir e o eletrodo de referência pode ser
21

mensurada utilizando-se um circuito amplificador como o de um voltı́metro. É necessário


compreender que a cabeça humana é composta de várias camadas. Dentre elas, podemos
citar o crânio, couro cabeludo, cérebro e outras membranas (meninge, por exemplo). Cada
camada apresenta uma resistência diferente, e a condutividade no crânio pode chegar a
ser cem vezes maior do que nos outros tecidos envolvidos. Então o EEG necessita de uma
grande concentração de neurônios em uma determinada área para gerar sinais mensuráveis
pelo circuito correspondente.
O córtex cerebral é responsável por gerar quase que toda a atividade do EEG, e
os potenciais pós-sináptico são responsáveis por quase a totalidade do registro da atividade
elétrica e não somente os potenciais de ação. A atividade do EEG também é dependente
de mecanismos do fluxo de corrente, condução de volume, propagação, sincronização e
dessincronização.
Portanto, o estudo dos sinais elétricos do cérebro através no EEG é de funda-
mental importância para o estudo das anormalidades. Assim, o estudo do EEG é utilizado
principalmente para a investigação de: área motora suplementar, campo ocular frontal,
área motora primária, área somatossensorial primário, área pré-motora, representação es-
quemática das principais partes do cérebro, monitorar o estado de alerta como coma e
morte encefálica, localização de áreas de danos após a lesão na cabeça que foram causadas
por acidente vascular cerebral e tumor, monitoramento do envolvimento cognitivo (ritmo
alfa, introduzido na próxima seção) e a epilepsia (SANEI e CHAMBERS, 2007).
A maioria das desordens cerebrais é diagnosticada por inspeção visual dos
sinais de EEG, e a análise é um processo racional e sistemático, requerendo uma série
de etapas ordenadas que caracterizam as atividades elétricas registadas em termos de
descritores especı́ficos ou caracterı́sticas e medidas. Portanto, é necessário a análise da
frequência, da amplitude do sinal, da forma de onda, do modo de ocorrência (aleatório,
de série, contı́nua), seus momentos estatı́sticos, dentre outras caracterı́sticas que podem
ser utilizadas como features no decorrer deste trabalho.

2.3 Ritmos Cerebrais

O EEG é composto de uma ampla faixa de componentes de frequência, e


muitos distúrbios são diagnosticados por uma inspeção visual do sinal EEG. Um médico
clı́nico especialista nessa área pode diagnosticar uma determinada anormalidade pela
sua familiarização com os ritmos cerebrais em sinais EEG. É importante salientar que
as amplitudes e frequências de um determinado estado (de vigı́lia ou do sono) variam de
paciente para paciente. E as caracterı́sticas das ondas cerebrais também sofrem alterações
com a idade de cada indivı́duo.
Há cinco principais ondas cerebrais que se distinguem por suas faixas de
frequência diferentes. Na Figura 6, é apresentada as principais bandas de frequências:
alpha (α), theta (θ), beta (β), delta (δ) e gama (γ):
22

Figura 6 – Quatro principais ritmos cerebrais .

Fonte: SANEI e CHAMBERS (2007).

• as ondas delta estão dentro de uma faixa de 0,5-4 Hz, são encontradas em estágios
de atividades cerebrais lentas. Estas ondas estão associadas principalmente com o
sono profundo, facilmente confundı́veis com ruı́do (normalmente chamado de sinais
de artefatos), causado pelos músculos do pescoço ou da mandı́bula. No entanto,
através da aplicação de métodos de análise de sinal simples para o EEG, é possı́vel
identificar quando a resposta é causada por movimento excessivo.
• as ondas theta cuja faixa de frequência é de 4 a 7,5Hz, estão associadas com a
mudança da consciência em direção à sonolência. Essas ondas também estão as-
sociadas com o acesso ao material inconsciente, inspiração criativa e à meditação
profunda. Normalmente, esse tipo de faixa de frequência está acompanhado por
outras frequências relacionando com o nı́vel de excitação. As ondas theta desem-
penham um papel importante na infância, e em elevados nı́veis de intensidade de
atividades nos adultos em vigı́lia são anormais e são causadas por vários problemas
patológicos.
• as ondas alpha (8-13 Hz) são encontradas normalmente na parte posterior da
cabeça, na região occipital do cérebro. Em geral tem uma forma arrendondada
ou em forma de um sinal senoidal. Raramente podem se manifestar como ondas
agudas. As ondas alpha indicam uma consciência relaxada, sem qualquer atenção
ou concentração. É o ritmo mais proeminente em toda a atividade cerebral. O
”estado”alpha é reduzido ou eliminado através da abertura dos olhos, por ouvir
sons desconhecidos, por ansiedade, concentração mental ou atenção.
23

• as ondas beta (14-30 Hz) são associadas com o pensamento ativo, atenção e foco no
mundo exterior para resolver um problema concreto e são encontradas em adultos
normais e também podem estar ligadas ao estado de pânico. São encontrada em
suma maioria na região frontal e central com amplitudes menores do que os ritmos
alpha.
• as ondas gamma (≥ 30 Hz) geralmente não são de interesse clı́nico e fisiológico.
No entanto a detecção destes ritmos pode ser utilizada para a confirmação de de-
terminadas doenças cerebrais.
De fato, é complicado entender e detectar os ritmos cerebrais do sinal EEG.
Profissionais com experiência e bastante treinados sentem dificuldade em determinados
momentos. Portanto existem diversas ferramentas para o processamento de sinais que
permitem separar e analisar formas de onda desejadas dentro do EEG. A análise visual
do EEG é subjetiva e depende da anormalidade que se deseja verificar.

2.4 Medições e Gravação do EEG

Atualmente, os sistemas de aquisição de EEG (Figura 7) consistem em uma


série de delicados eletrodos, com um conjunto de amplificadores, um por canal, uma série
de filtros de sinais e dispositivos para armazenamento e visualização. Sendo assim, o
sinal EEG é transformado em um sinal digital, exigindo uma frequência de amostragem,
resolução e codificação dos sinais.

Figura 7 – 32-Channel Digital Video EEG Machine .

Fonte: https://goo.gl/MIoel3 acesso em outubro de 2016.

Os sistemas informatizados de EEG transformam o sinal analógico em sinal


digital por meio de conversores analógico-digitais (ADCS), de forma que para a maioria
das aplicações do EEG, a banda de frequência é limitada em centenas de Hz. A frequência
mı́nima de amostragem é de 200 amostras em um segundo para satisfazer o critério de
24

Nyquist. A resolução de cada amostra utilizada, comumente, é de 16 bits. Como discutido


na introdução deste trabalho, o tamanho dos arquivos utilizando essa configuração é
significativo sendo necessário alguma compactação.
Para uma boa qualidade do sinal, é de fundamental importância que os eletro-
dos sejam de qualidade e estejam em condições adequadas. Existem diferentes tipos de
eletrodos, dentre os quais podemos citar: descartáveis, à base de gel, eletrodos de disco
reutilizáveis, eletrodos de escalpo ou toucas (Figura 8), eletrodos de base salina e eletro-
dos de agulha. As toucas de eletrodos são normalmente utilizadas para as gravações de
multicanais, utilizando-se um número considerável de eletrodos. Esses dispositivos con-
sistem de discos de Ag-AgCl (prata-cloreto de prata) com menos de 3 mm de diâmetro,
com longos fios flexı́veis conectados aos amplificadores (SANEI e CHAMBERS, 2007).

Figura 8 – Touca de eletrodos para EEG .

Fonte: https://goo.gl/VT8Tdw acesso em outubro de 2016.

Dispõe-se do EEG intra-craniano e do couro cabeludo. O EEG intra-craniano


tem uma baixo ruı́do pois o eletrodo é implantado no interior do cérebro e também é menos
susceptı́vel à interferência eletromagnética e artefatos. Outra vantagem é que o EEG intra-
craniano capta uma melhor resolução espacial. No entanto, sua principal desvantagem é
a natureza invasiva. Portanto o EEG de escalpo é o mais comum clinicamente porque
não é invasivo.

2.4.1 Padrão Convencional de Posição dos Eletrodos (10-20)

O posicionamento convencional dos eletrodos foi recomendando pela Interna-


tional Federation of Societies for Electroencephalography and Clinical Neurophysiology e
é denominado padrão 10-20 (Figura 9). O padrão refere-se à distribuição dos eletrodos e
considera algumas distâncias constantes usando marcos anatômicos especı́ficos, a partir
dos quais as medidas seriam realizadas e, em seguida, usa 10% ou 20% da distância espe-
cificada como o intervalo entre os elétrodos. Os números pares referem-se aos elétrodos
posicionados no hemisfério direito e os números ı́mpares aos eletrodos do hemisfério es-
querdo. As letras apresentam qual a localização do eletrodo na cabeça conforme a Tabela
25

1.
Figura 9 – Padrão 10-20 .

Fonte:10/20 System Positioning Manual.

Tabela 1: Identificação dos Eletrodos


Eletrodo Lobo
F Frontal
T Temporal
C Central
P Parietal
O Occipital

2.5 Banco de Dados Utilizado

O conjunto de dados utilizados neste trabalho consiste em gravações contı́nuas


do EEG, do tipo escalpo, realizados em 24 pacientes (a maioria, pediátricos) após a
retirada da medicação para a avaliação de cirurgia de epilepsia no Hospital Infantil de
Boston. A lista de paciente é apresentada no Anexo A. O EEG apresenta uma taxa de
amostragem de 256 Hz, utilizando-se em 18 eletrodos. Ainda nesse seção será apresentada
a diferença entre eletrodos e canais. A montagem do escalpo para as gravações seguiu o
Padrão 10-20.
Como citado na introdução, os arquivos gerados pela gravação do EEG em
média apresentam 1 hora de duração. Em alguns pacientes, foram utilizadas gravações
de 4 horas, gerando um total de 686 arquivos. Os arquivos estão catalogados em com
convulsões e sem convulsões. Em todos os arquivos, foram detectados 197 convulsões dis-
tribuı́das em 141 arquivos, totalizando um total de 195,5 minutos para todos os pacientes.
Os arquivos foram disponibilizados no formato .edf, seguindo o seguinte padrão:
chb01 03.edf, em que “chb01” identifica o paciente e “03” identifica o número do arquivo
26

que esta sendo utilizado. A configuração dos canais utilizada em cada paciente é apresen-
tada no Anexo A. O arquivo de extensão .edf (European Data Format) é um arquivo de
dados composto por um cabeçalho, seguido pelos registros de dados. Esta especificação
pode ser vista em: http://www.edfplus.info/specs/edf.html. O cabeçalho identifica
o paciente e especificam as caracterı́sticas técnicas do sinal gravado. Os primeiros 256
bytes do cabeçalho especificam o número da versão deste formato, o paciente, a identi-
ficação de gravação, informações de duração da gravação, o número de registros de dados
e, finalmente, o número de sinais em cada registro de dados. Em seguida, é especificado o
tipo de sinal (por exemplo, EEG, temperatura corporal, etc), a calibração de amplitude
e o número de amostras em cada registo de dados (KEMP et al., 1992).
Para a visualização e análise dos dados presentes nos arquivos utilizando o
ambiente computacional Matlab ou Octave, foi necessário utilizar a função edfread.m. O
parâmetro de entrada da função é o endereço e nome do arquivo, e a função retorna um
cabeçalho (header) e os dados (recorddata). Um exemplo de como a função é utilizada é
apresentado a baixo no código a seguir:

clear; clc;
% Exemplo de utilizacao da funcao edfread
[header, recorddata] = edfread('chb01 03.edf');

Utilizando, como exemplo, o arquivo chb01 03.edf, a função retorna os dados


gravados em forma de uma matriz de dimensões 23 linhas por 921600 colunas. O número
de linhas informa a configuração dos canais utilizada. Os sinais dos 18 canais são com-
binados em pares diferenciais. Na Tabela 2, é apresentada a configuração dos canais
utilizada para a gravaçao do arquivo apresentado no exemplo. As colunas apresentam
os dados gravados para cada par diferencial de eletrodos. Cada coluna é equivalente a
uma amostragem do sinal para os 23 canais. Sabendo-se que a frequência de amostragem
utilizada para a gravação é de 256 Hz, temos uma amosta a cada 1/256 segundos. Então
921600 amostras equivalem a uma hora de gravação. Cada arquivo de uma hora apresenta
em média 40.4MB de tamanho.
Como dito anteriormente, um canal do EEG, ou sinal, é formado pela diferença
entre potenciais, medida entre dois eletrodos. Tome como exemplo o eletrodo FP1 e F7.
Então o canal 1, FP1-F7, apresenta o sinal gerado pela diferença entre esses dois eletrodos.
Esse canal em especı́fico reflete a atividade neural localizada no lobo frontal do hemisfério
esquerdo. É importante conhecer as amplitudes de cada canal pois o inı́cio de um ataque
focal envolve uma alteração na atividade em pouco canais do EEG, pela localização do
eletrodo mais perto na região de origem da epilepsia. Porém, é necessário verificar o inı́cio
de um atividade epilética generalizada que envolve todos os canais utilizados.
27

Tabela 2: Configurações dos Canais


Canal Eletrodos Canal Eletrodos Canal Eletrodos
1 FP1-F7 9 FP2-F4 17 FZ-CZ
2 F7-T7 10 F4-C4 18 CZ-PZ
3 T7-P7 11 C4-P4 19 P7-T7
4 P7-O1 12 P4-O2 20 T7-FT9
5 FP1-F3 13 FP2-F8 21 FT9-FT10
6 F3-C3 14 F8-T8 22 FT10-T8
7 C3-P3 15 T8-P8 23 T8-P8
8 P3-O1 16 P8-O2 - -

2.6 Detecção de Ataque Epilético no EEG

Sabemos que os ataques epiléticos são perı́odos onde a atividade cerebral oscila
entre a hiperatividade e o hipersincronismo, gerando sintomas clı́nicos que podem ser
acompanhados de convulsões. A variação dos sintomas clı́nicos ocorre em função da
localização de origem desse estado, com o padrão de distribuição e a abrangência para
outras regiões do cérebro.
A redistribuição da energia espectral, causada pela epilepsia, consiste no surgi-
mento ou no desaparecimento de componentes de frequência dentro de uma faixa que varia
de 0 a 25 Hz, porém essas componentes de frequência variam de paciente para paciente e
varia também com o local de origem do ataque.
Utilizando os exemplos apresentados por SHOEB (2009), a Figura 10 ilustra
um exemplo do comportamento dos sinais de um paciente em crise. A crise se inicia no
instante 1723 segundos e consiste no aumento de energia do sinal EEG em todos os canais,
seguido pelo surgimento de um ritmo beta canais F3-C3 e C3-P3. Em seguida a amplitude
deste ritmo aumenta à medida que as suas frequência diminuem e se instalam dentro da
banda de frequência do tipo theta. Outro exemplo pode ser visto na Figura 11, onde
a crise epilética inicia-se no instante 6313 segundos, com o surgimento de ritmo theta
proeminentemente nos canais F7-T7 e T7-P7. Os outros canais apresentam mudanças
após o inicio de crise, e é possı́vel verificar alterações da frequência em outros canais. Por
fim, é apresentado o exemplo da Figura 12, ilustrando um descarga anormal no intervalo
de 2884-2892 segundos, caracterizada pelas altas amplitudes com seguidos picos de ondas
de alta frequência. Porém, essa descarga anormal não é devido a ocorrência de uma crise
epiléptica.
Os três exemplo são uma pequena amostra da variabilidade de sinais que po-
dem ser observada entre os vários tipos de crises epiléticas e os pacientes. Portanto há
uma complexidade em classificar esses padrões de forma genérica para pacientes, sendo
mais comum realizar um estudo do padrão do comportamento do EEG para cada paciente.
28

Figura 10 – Exemplo de EEG com crise epilética em um paciente A.

Fonte:(SHOEB, 2009).

Figura 11 – Exemplo de EEG com crise epilética em um paciente B.

Fonte:(SHOEB, 2009).

Figura 12 – Exemplo de EEG com crise epilética em um paciente C.

Fonte:(SHOEB, 2009).
29

2.7 Resumo do Capı́tulo

Este capı́tulo apresentou uma introdução ao exame EEG, destacando sua


aplicabilidade no diagnóstico da epilepsia e um breve histórico sobre esse procedimento.
Em seguida, foram analisados os fundamentos fisiológicos do EEG, dentre os quais as
ativações de um neurônio e a sinapse entre neurônios. Este capı́tulo apresentou os ritmos
cerebrais, destacando-se as principais faixas de frequências e suas caracterı́sticas.
Em sequência, o capı́tulo destacou como são realizadas as aquisições de dados
do EEG, destacando-se o EEG de escalpo e apresentando-se o padrão convencional de
posição dos eletrodos (10-20). Também foram destacados a origem e o formato dos dados
a serem utilizados nesse trabalho, proveniente de um banco de dados. E por fim, foram
apresentados exemplos de EEG com a ocorrência de crises, nos quais se observaram a
diversidade de padrões que podem ocorrer.
O capı́tulo seguinte irá destacar os métodos de caracterização e extração dos
atributos do sinal EEG, com o intuito de representá-lo com menor quantidades de parâmetros.
Esses atributos serão utilizados nos classificadores propostos.
30

3 MÉTODOS DE EXTRAÇÃO DE ATRIBUTOS

A extração de atributos é a parte mais importante no processo quando se deseja


trabalhar com classificação. Ao se trabalhar com EEG, essa importância é elevada por
se tratar de método para classificação de diagnósticos de crises convulsivas em pacientes.
Escolher quais as caracterı́sticas mais adequadas para o problema é fundamental para o
desempenho desejado para um classificador, além do desejo de ser rápido o suficiente para
poder ser utilizado em um plataforma de tempo real.
Com a literatura que foi utilizada como referência neste trabalho, evidencia-se
que não existe um único método recomendável para a extração de atributos nos sinais
do EEG. De forma a apresentar a diversidade de métodos utilizados, destacam-se alguns
métodos a seguir. Métodos comuns são a utilização da Transformada Discreta de Wavelet
(DFW) (JAHBABHANI, KODOGIANNS e REVETT(2006) e SUBASI (2007)), análise
da amplitude dos sinais (KAPER et al. (2003)), utilização de métodos de agrupamento
(SIULY e WEN(2010)), método de modelagem de processo autorregressivo (PENNY et al.
(2000) e PFURTSCHELLER et al. (1998)) e por fim o método da estimação da densidade
espectral de potência (PSD)(CHIAPPA e BENGIO(2004)).
Também há a necessidade de verificarem-se trabalhos que realizaram a com-
paração entre os métodos de extração de atributos (SILVA (2012) e AL-FAHOUN e AL-
FRAIHAT(2014)), de forma a auxiliar na escolha dos métodos de extração de atributos
a serem aplicados nesse trabalho.

3.1 Caracterı́sticas do Sinal EEG

Antes de apresentar os métodos que serão utilizados para a extração de atri-


butos nesse trabalho, é importante verificar algumas propriedades e caracterı́sticas do
EEG. No Gráfico 1 observa-se o intervalo correspondente a 5 segundos de sinal, referente
somente ao canal 1 (FP1-F7). Observando-se apenas esse sinal, é impossı́vel determinar
em qual estado se encontra o paciente.

Gráfico 1 – Intervalo de cinco segundos de sinal do EEG (canal 1).

Fonte: Elaborada pelo autor.


31

Para enfatizar a dificuldade encontrada na realização de um diagnóstico, são


apresentados dois gráficos (2 e 3) que ilustram dois intervalos de um mesmo paciente.
O Gráfico 2 ilustra um perı́odo no qual o paciente não apresenta um quadro de crise
epiléptica, já o Gráfico 3 ilustra a ocorrência de uma crise no intervalo. Outro fato a
destacar é a fadiga visual ocasionada através da realização de diversos diagnósticos segui-
dos. Portando, a eficiência deste tipo de procedimento é reduzida e mais lenta. Podendo
ocasionar falhas devido ao cansaço visual. Pode-se afirmar que a análise do diagnóstico é
sujeita as limitações inerentes à subjetividade e à variabilidade dos especialistas.

Gráfico 2: Intervalo sem o evento de crise. Gráfico 3: Intervalo com o evento de crise.

O sinal EEG apresenta uma importante caracterı́stica inerente: sua alta não-
estacionaridade. A aplicação de métodos de dinâmica não-linear (ou caos determinı́stico)
ao problema da descrição de um EEG foi relativamente bem sucedida como apresentado
no capı́tulo 7 da referência ADELI (2010). Muitos métodos determinı́sticos baseados em
caos são aplicados para caracterizar a não-linearidade intrı́nseca embutida aos sinais de
EEG. No entanto, a maioria destes métodos necessita de uma condição crı́tica: que a
série de tempo seja estacionária. Tal restrição infelizmente faz com que as abordagens
convencionais não sejam confiáveis para a análise de sinais fisiológicos, uma vez que a não
estacionariedade (isto é, as propriedades estatı́sticas, como a média, variância e função de
autocorrelação variam com o tempo) é uma caracterı́stica intrı́nseca dos dados fisiológicos
e persiste mesmo sem intervenção externa (TSAI et al., 2009).
Os fenômenos não-estacionários estão presentes no EEG, geralmente sob a
forma de eventos transitórios, como ondas acentuadas, picos ou descargas de ondas de pico
que são caracterı́sticas do EEG epiléptico, ou como alternância de intervalos (segmentos)
relativamente homogêneos com caracterı́sticas estatı́sticas diferentes.
O trabalho consiste em utilizar métodos para realizar análise linear no domı́nio
da frequência e do tempo do sinal EEG. Serão utilizados os métodos da Estimação da Den-
sidade Espectral de Potência (PSD) através da Transformada Rápida de Fourier (FFT)
e a estimação dos parâmetros ao modelo autorregressivo (AR).
32

3.2 Densidade Espectral de Potência (PSD)

O primeiro método usado para a análise é a Transformada Rápida de Fourier


(FFT), aplicando-se a FFT discreta ao sinal e detectando-se seu espectro. Sabe-se que
o sinal EEG é não-estacionário, o que significa que seu espectro muda com o tempo.
Tal sinal pode ser aproximado como estacionário por partes, ou seja, uma sequência de
segmentos de sinal estacionários independentes. Nesse trabalho, será assumi-se que a
duração de um intervalo estacionário mı́nimo seja de 2 segundos.
A PSD é calculada através da Transformada de Fourier, para a implementação
do método é necessário a estimação da sequência de autocorrelação, podendo ser utilizado
posteriormente métodos não paramétricos. O método não paramétrico a ser utilizado
nesse trabalho será o Método de Welch. Porém, antes de discutirmos esse método, essa
seção irá apresentar o desenvolvimento do periodograma e as motivações para uso do
método de Welch.
A autocorrelação rx (k) de um processo estacionário no sentido amplo (forte)
fornece a descrição no domı́nio do tempo de um processo. A função rx (k) pode ser
calculada através da transformada de Fourier do tempo discreto.

X
Px (ejω ) = rx (k)e−jkω , (1)
k=−∞

em que Px pode ser chamada de densidade espectral de potência. Dado o espectro de


potência para o cálculo da sequencia de autocorrelação, aplica-se a inversa da transfor-
mada de Fourier (equação 2). Para um processo ergódico, se x(n) é conhecido para todo
n a estimação do espectro de potência é calculada diretamente, em teoria, realizando-se
o cálculo da sequência de autocorrelação conforme a equação 3.
Z π
1
rx (k) = Px (ejω )ejkω dω, (2)
2π −π

 N 
1 X

rx (k) = lim x(n + k)x (n) , (3)
N →∞ 2N + 1 n=−N

em que x∗ (n) é o conjugado de x(n).


Os métodos não-paramétricos baseiam-se na ideia de estimar a sequência de
autocorrelação de um processo aleatório através de um conjunto de dados medidos, e
em seguida utilizar a transformada de Fourier para obter uma estimativa do espectro de
potência. Será apresentado o periodograma e a sua variação com o método de Welch.
Quando se trabalha com um processo estacionário fraco, para se calcular a
estimativa da autocorrelação (r̂), a equação 3 é redefinida para um número finito de
33

amostras, sendo dada por:

N −1
1 X
r̂x (k) = x(n + k)x∗ (n), (4)
2N n=0

para garantir que os valores de x(n) que caem fora do intervalo [0, N-1] não sejam com-
putados, pode-se reescrever a equação da seguinte forma:

N −1−k
1 X
r̂x (k) = x(n + k)x∗ (n). (5)
2N n=0

Para os valores de k < 0, será usada a propriedade de simetria do função de


autocorrelação e r̂x (k) é nula para |k| ≥ N . Então, a transformada discreta da autocor-
relação estimada é uma estimativa da densidade espectral de potência, conhecida como
periodograma (HAYES, 1996), é dada por:

N
X −1
P̂per (ejω ) = r̂x (k)e−jkω . (6)
k=−N +1

Embora definido em termos da sequência de autocorrelação estimada r̂x (k),


normalmente se expressa o periodograma diretamente em termos do processo x(n). Para
expressar em termos do processo, é necessário realizar o seguinte procedimento. Seja
xN (n) o sinal finito de comprimento igual a x(n) ao longo do intervalo [0, N-1], e zero
caso contrário. 
x(n) ; 0 ≤ n < N
xN (n) = (7)
0 ; caso contrário.

Então, xN (n) é o produto de x(n) com uma janela retangular wR (n). Agora
em termos de xN (n), a função de autocorrelação estimada é dada por:

1 X 1
r̂x (k) = xN (n + k)x∗ (n) = xN (k) ∗ xN ∗ (−k), (8)
N k=−∞ N

usando o teorema da convolução e a transformada de Fourier na equação 8 temos:

1 1
P̂per (ejω ) = XN (ejω )XN ∗ (ejω ) = |XN (ejω )|2 , (9)
N N

onde XN (ejω ) é a transformada discreta de Fourier para N amostras de xN (n), como


apresentado na equação 10.


X N
X −1
X̂N (ejω ) = xN (n)e−jnω = x(n)e−jnω (10)
n=−∞ n=0
34

Por fim pode-se verificar que o periodograma é proporcional ao quadrado da


magnitude da transformada discreta de Fourier de xN (n) e pode ser mais fácil de im-
plementar seguindo a seguinte ordem: com os dados xN (n), calcula-se a transformada
discreta de Fourier e determina-se XN (k). Por fim calcula-se o quadrado da magnitude
de (|XN (k)|2 )/N . Finalmente pode-se concluir que o periodograma é proporcional ao qua-
drado da magnitude da transformada de Fourier de um sinal janelado xN (n) = x(n)wR (n).
A seguir é apresentado uma implementação da função para calcular o periodograma.

function Px = periodogram (x,n1,n2)


x= x(:);
if nargin ==1
n1=1;
n2=length(x);
end;
Px=abs(fft(x(n1:n2),1024)).ˆ2/(n2-n1+1);
Px(1)=Px(2)
end;

O sinal xN (n) utilizado no periodograma, foi combinado com uma janela re-
tangular. Porém é comum o uso de outros tipos de janelamento diferente do retangular,
destacando-se as janelas de: Bartlett, Hanning, Hamming, Blackman, Flattopwin, Gaus-
siana e Taylorwin. No Gráfico 4, tem-se o exemplo das janelas de Blackman (azul), a
Gausiana (amarelo) e a de Hamming (vermelho). O cálculo do periodograma modificado
é dado por:
 X ∞ 2
jω 1 −jnω
P̂M (e ) = x(n)w(n)e (11)
N U n=−∞

onde w(n) é a janela utilizada e U é dado pela média quadrática da magnitude de w(n).

L−1
1X
U= |w(n)|2 (12)
L n=0

A seguir será apresentada uma função em Matlab para o cálculo do periodo-


grama modificado com a possibilidade de uso das janelas de Hamming, Hanning, Barlett
e Blackman.

funcion Px = mper(x,win,n1,n2)
x=x(:)
if nargin==2
n1=1
n2=length(x);
end
N=n2-n1+1
35

w=ones(N,1)
if (win==2) w=hamming(N);
elseif (win==3) w=hanning(N);
elseif (win==4) w=bartlett(N);
elseif (win==5) w=blackman(N);
end
xw=x(n1:n2).*w/norm(w);
PX=N*periodogram(xw)
end;

Gráfico 4 – Exemplos de janelas no periodograma modificado.

.
Fonte: Elaborada pelo autor.

Para iniciar a descrição do periodograma pelo método de Welch, a principio,


será apresentado o método de Bartlett, pois o método de Welch é uma variação do método
de Bartlett.
O método de periodograma de Bartlett produz uma estimativa do espectro de
potência. A motivação para este método vem da observação de que o valor esperado do
periodograma converge para Px (ejω ) à medida que o comprimento do registro de dados
(N ) vai para o infinito, ou seja,

lim E{P̂per (ejω )} = Px (ejω ). (13)


N →∞

Pela equação 13, conclui-se caso seja possı́vel encontrar uma média da esti-
mativa do periodograma, então o valor encontrado será uma estimativa consistente de
Px (ejω ). Seja, xi (n) de i = 1 até K, onde temos K realizações de um processo não corre-
lacionado de um processo randômico x(n) sobre o intervalo de 0 < n ≤ L. Sabe-se que a
estimativa do periodograma de xi (n) é dado por:
 L−1 
(i) jω 1 X −jnω
P̂per (e ) = xi (n)e , i = 1, 2, ..., k, (14)
L n=0
36

e a média vertical para K realizações é dada por:

K
jω 1 X (i) jω
P̂x (e ) = P̂ (e ). (15)
K i=1 per

Calculando o valor esperado para P̂x (ejω ):

1
E{P̂x (ejω )} = E{P̂per
(i) jω
(e )} = Px (ejω ) ∗ WB (ejω ), (16)

no qual WB (ejω ) é a transformada de Fourier da janela de Bartlett no intervalo de [−L, L].


Como assumimos que os dados são não correlacionados, a variância de P̂x (ejω ) é:

1 1
V ar{P̂x (ejω )} = (e )} ≈ Px 2 (ejω ).
(i) jω
V ar{P̂per (17)
K K

Porém essa abordagem na prática é complexa pois normalmente não se tem K


realizações de um processo e sim uma única realização com N amostras. Então Bartlett
propôs que x(n) seja particionado em K sequencias não sobrepostas de tamanho L, onde
N = LK e a estimativa da densidade espectral de potência de Barlett com essa proposta
é dada por:
K−1  L−1 2
jω 1 X X −jnω
P̂B (e ) = x(n + iL)e . (18)
N i=0 n=0

em que xi (n) = x(n+iL) para n = 0, 1, ..., K e i = 0, 1, ..., K−1. A seguir será apresentada
um implementação desse método utilizando um função no Matlab.

function Px =bart(x,nsect)
L=floor(length(x)/nsect);
Px=0;
n1=1;
for i=1:nsect
Px = Px + periodogram(x(n1:n1+L-1))/nsect;
n1 = n1 + L;
end;

WELCH (1967) propôs em seu trabalho intitulado “The Use of Fast Fourier
Transform for the Estimation of Power Spectre: A Method Based on Time Averaging
Over Short, Modified Periodograms” duas alterações no método de Barlett. A primeira
proposta de modificação é permitir que a sequência de dados xi (n) se sobreponham e
a segunda proposta é permitir que o janelamento dos dados w(n) seja aplicado a cada
sequência. Desta forma, produz-se um conjunto de periodogramas modificados que devem
ser calculados pela média.
Com um sinal xi (n), esse sinal é formado por sucessiva sequências de offset D
37

ao longo de L pontos na sequência, ou seja, xi (n) = x(n + iD) para i = 0, 1, ..., L − 1.


Então a quantidade de amostras sobrepostos entre xi (n) e x1+i (n) é L − D pontos.
O cálculo da densidade espectral de potência estimada de Welch é dada por:

K−1  L−1 2
jω 1 X X −jnω
P̂W (e ) = w(n)x(n + iD)e , (19)
KLU i=0 n=0

onde U é dado pela equação 12.


O valor esperado da estimativa do método de Welch é dado por:

1
E{P̂w (ejω )} = Px (ejω ) ∗ |W (ejw )|2 , (20)
2πLU

em que W (ejw ) é a transformada de Fourier da janela escolhida. Portanto, o periodograma


de Welch é um periodograma com algumas modificações do método de Barlett.
A seguir é apresentada uma implementação do método de Welch no Matlab
utilizando as funções já apresentadas anteriormente.

function Px = welch(x,L,over,win)
if (over>=1 | over<0)
error('Overlap invalido')
end
n1=1;
n0=(1-over)*L
nsect=1+floor((length(x)-L)/(n0));
Px=0;
for i=1:nsect
Px=Px + mper(x,win,n1,n1+L-1)/nsect;
n1=n1+n0;
end;

3.3 Estimação de Parâmetros de um Modelo Autorregressivo

Um dado processo yt é chamado de processo estocástico de ordem p, AR(p),


se em cada intervalo de tempo t o valor de yt é determinada pela seguinte expressão:

yt = φ0 + φ1 yt−1 + φ2 yt−2 + ... + φp yt−p + t , (21)

em que φ0 , φ1 , ..., φp são os parâmetros do processo e t é um processo randômico de-


nominado ruı́do branco. Este processo é estacionário no sentido amplo, cuja função de
autocovariância é nula para todo t diferente de zero, ou seja, é um conjunto de dados não
correlacionados, com a variância σ 2 .
Os processos AR podem ser utilizados como modelos se for razoável assumir
38

que o valor atual de uma série temporal depende do seu passado imediato mais um erro
aleatório EHLERS (2009). Em outras palavras, é o agregado linear dos valores anteriores
da série com a adição de um ruı́do branco.
A função de autocorrelação de um modelo AR(p) pode ser escrita com a se-
guinte expressão:

ρ(τ ) = φ1 ρ(τ − 1) + φ2 ρ(τ − 2) + ... + φp ρ(τ − p), τ > 0, (22)

em que ρ(τ ) é a função de autocorrelaçao normalizada, denominada equação de Yule-


Walker, que é dada por:

Rx (τ ) E[x(n)x(n − τ )]
ρ(τ ) = = (23)
σx 2 E[x2 ]

Nessa seção, o objetivo é estimar os coeficientes φ1 , φ2 , ...φp assumindo-se que


o sinal EEG em um intervalo de t segundos seja estacionário e ergódico. Utilizando-
se o método dos momentos, é possı́vel estimar os coeficiente utilizando-se a equação de
Yule-Walker.
O procedimento é iniciado calculando-se a versão amostral da função de auto-
correlação normalizada r(τ ) que é dada pela seguinte expressão:
PN
k=τ +1 x(k)x(k − τ)
r(τ ) = PN 2 , (24)
k=1 x (k)

em que x(k) é a k-ésima amostra do conjunto de dados.


Reescrevendo a equação 22 em função de r(τ ) temos:

r(τ ) = φ1 r(τ − 1) + φ2 r(τ − 2) + ... + φp r(τ − p), τ > 0, (25)

Sabendo que a função de autocorrelaçao é par (r(−τ ) = r(τ )) e que r(0) = 1,


substituindo os valores de τ para τ = 1, 2, ..., p têm-se o seguinte sistema:




 r(1) = φ1 + φ2 r(1) + ... + φp r(p − 1), τ =1


r(2) = φ r(1) + φ + ... + φ r(p − 2),

τ =2
1 2 p
. . (26)

 .. ..



r(p) = φ r(p − 1) + φ r(p − 2) + ... + φ ,

τ = p.
1 2 p
39

Escrevendo o sistema de forma matricial tem-se Rφ = r,


    
1 r(1) ··· r(p − 1) φ1 r(1)
r(1) 1 ··· r(p − 2) φ2 r(2)
    
    
.. .. .. .. = .. (27)
...
  
. . . . .
    
    
r(p − 1) r(p − 2) ··· 1 φp r(p)

onde R é uma matriz quadrada de dimensão p, e φ e r são vetores de dimensão p x 1.


Para calcular os valores estimados dos coeficientes, resolve-se a seguinte equação
matricial:
φ̂ = R−1 r. (28)

De posse de um conjunto de dados e utilizando-se a Equação de Yule-Walker,


pode-se estimar os parâmetros de um processo AR(p). Porém, é importante também
estimar qual a ordem do modelo que melhor se encaixa ao processo real a ser modelado.
De forma a estimar a ordem utilizando o método dos momentos e a expressão
de Yule-Walker. Calcula-se a função de autocorrelaçao parcial (FACP), utilizando-se a
equação 28 de forma recursiva. Computacionalmente, pode ser feito através de um loop
de 1 ≤ i ≤ p, em que em cada iteração, calcula-se φ(i) e em seguida faz-se o descarte de
φ̂j (onde 1 ≤ j ≤ i − 1) e retém-se o valor de φ̂i ,

φ(i) = (R(i) )−1 r(i) , (29)

isto é, a FACP é φ̂i a cada iteração.

3.4 Resumo do Capı́tulo

Esse capı́tulo destacou os principais métodos de extração de features, não exis-


tindo um procedimento padrão para tal atividade. Em seguida, foram apresentadas algu-
mas caracterı́sticas básicas do sinal EEG das, quais pode-se destacar como principal a sua
não-estacionaridade. Destacou-se também a dificuldade para se realizar um diagnóstico
visualmente através do EEG.
Mais adiante, o capı́tulo apresentou o método da estimação de densidade es-
pectral de potência. Foi realizada, uma revisão destacando o periodograma, o periodo-
grama modificado, o periodograma de Barlett e por fim o periodograma de Welch que
será utilizado no trabalho.
A ultima seção deste capı́tulo tratou da estimação de parâmetros de um modelo
autorregressivo de ordem p (AR(p)), utilizando-se a expressão de Yule-Walker e o método
dos momentos. Por fim, foi apresentada a função de autocorrelação parcial que será
utilizada adiante.
40

4 CLASSIFICADORES BASEADOS EM REDES NEURAIS

4.1 Introdução a Redes Neurais

As redes neurais artificias (RNAs), compostas por neurônios artificiais propos-


tos na década de 40 por McCulloch & Pitts, são máquinas de aprendizado não-linear for-
madas por neurônios artificiais. Esses neurônios artificiais são um modelo de um neurônio
biológico (já estudado aqui no capı́tulo 2). Utilizando o princı́pio de energia de ativação
(sinapse) e que os neurônios têm a capacidade de adaptação de acordo com as informações
por meio de estı́mulos, realiza-se um processamento paralelo e de forma distribuı́da.
Observando-se a Figura 13, verifica-se que no modelo de McCullock & Pitts
cada ramo da árvore dendrı́tica é modelado como uma canal de transmissão por onde a
informação de entrada flui, a força das conexões (sinapse) é modelado como um fator ou
peso sináptico para cada canal de entrada. O peso sináptico tem o papel de modular o
fluxo de sinais passando pelos canais de informação. O corpo celular do neurônio tem a
função de realizar o balanco ou acúmulo energético realizado pelas sinapses, e é modelada
por um operação de somatório sobre as entradas moduladas com seus pesos sinápticos.
Por fim o axônio é modelado como uma chave ON-OFF, indicando que houve ou não o
estı́mulo, ou seja, se houve ou não o envio de um potencial de ação.
Figura 13 – Modelo de Neurônio Artificial.

Fonte: Adaptado de Haykin (2009).

No fim da década de 50, Frank Rosenblatt apresentou um algoritmo que foi


considerado a primeira rede neural artificial, denominado de Perceptron Simples (PS).
Esse algoritmo utilizava os neurônios de McCulloch & Pitts adicionado de um regra de
aprendizagem. Essa regra de aprendizagem foi o mecanismo que torna essa rede um
algoritmo inteligente. A rede PS apresenta múltiplas entradas conectadas a uma única
camada, aplicado somente a problemas de classificação linearmente separáveis.
Após a implementação do Perceptron Simples, diversas outras arquiteturas e
configurações foram desenvolvidas visando à otimização e a adaptação para determinados
tipo de problemas. Então, as RNAs são uma poderosa ferramenta computacional para o
41

tratamento de problemas não-lineares em processamentos de sinais (HWANG et al., 1997).


Em suma maioria, o tratamento de problemas não-lineares requerem o mapeamento do
par entrada-saı́da não lineares, e as RNAs são aplicadas para a aproximação de funções e
a classificação de padrões (HAYKIN, 2009).
Para a utilização de RNAs em classificações de padrões, é necessário associar
os padrões de entrada, vetor de atributos, a uma das classes definidas anteriormente. A
partir do treinamento com os rótulos das classes, é possı́vel determinar as denominadas
funções discriminantes. A Figura 14 apresenta algumas regiões de decisões do tipo: linear,
linear por partes ou de forma arbitrária. As RNAs são utilizadas em diversos sistemas de
classificação de padrões. Como exemplos, podemos citar a classificação de imagens e voz,
de dados biométricos, de diagnósticos, falhas em motores entre outras diversas aplicações.

Figura 14 – Classificador de Padrões.

Fonte: Adaptado de Jain (1996).

Esse capı́tulo tem como objetivo apresentar duas arquiteturas de redes neu-
rais para classificação não-linear. Os métodos adotados de interesse deste trabalho serão:
rede neural do tipo Perceptron Multicamada (MLP - Multilayer Perceptron) do tipo feed-
forward (sem realimentação) com apenas uma camada escondida de neurônios treinados
com o algoritmo de retropropagação do erro (Error Backpropagation) e uma rede neu-
ral de multicamadas do tipo feedforward denominada Extreme Learning Machine (ELM),
proposta por Huang et al (2006).

4.2 Definições Preliminares

Considere um sistema no qual se deseja avaliar e construir um modelo, porém


de posse somente de uma fonte de informação que é o conjunto de entradas e saı́das do
sistema. Esse conjunto de dados entrada-saı́da pode ser representado por {xµ , dµ }. Em
que xµ é o µ-ésimo padrão de entrada, onde x ∈ Rp+1 . Onde p é o número de atributos e
é somado a um por conta do termo de bias. E dµ é o rótulo da classe alvo correspondente,
onde d ∈ Rk , em que k denota o número de classes.
Como deseja-se modelar o comportamento de uma função matemática que
associe as saı́das com as entradas é que será utilizada a rede neural. Seja F(·) desconhecida
42

a relação que mapeia as entradas e as saı́das. Portanto, pode supor que mapeamento pode
ser linear:
d = Mx (30)

em que M é uma matriz cuja dimensões são (p + 1) × m. Portando o uso da rede neural
implementa um algoritmo que dará o menor valor aproximado do mapeamento entrada-
saı́da. A função que melhor aproxima é representada por F̂(·). A saı́da yµ gerada pela
rede neural para a entrada xµ é dada por:

yµ = F̂[xµ ] (31)

O processo de obtenção da relação matemática geral F̂ utilizando apenas al-


guns pares de entrada-saı́da é denominado Aprendizado Indutivo. A seguir serão apre-
sentadas duas arquiteturas que terão como objetivo realizar o aprendizado indutivo com
o conjunto de atributos da série temporal do EEG como entrada e os rótulos de sinal com
ou sem detecção de crises epiléticas.

4.3 Fundamentos da Rede Neural MLP

A arquitetura de um rede MLP, apresentada na Figura 15, é constituı́da de uma


camada de neurônios de entradas que recebem os sinais, uma ou mais camadas ocultas
formada por neurônios não-lineares e por fim uma camada de saı́da composta por um ou
mais neurônios (dependendo do número de classes ou rótulos) que podem ser lineares ou
não lineares. Segundo (HAYKIN, 2009), as três caracterı́sticas básicas de uma rede do
tipo perceptrons multicamadas são:
• o modelo de cada neurônio na rede inclui uma função de ativação não-linear que é
diferenciável;
• a rede contém uma ou mais camadas que estão ocultas, e;
• a rede apresenta um elevado grau de ligação, no qual a extensão da qual é determi-
nada pelos pesos sinápticos da rede.
Este trabalho irá se dedicar à utilização de uma rede MLP com a arquitetura
de apenas uma camada oculta, apresentada na Figura 16. Vários autores aplicam essa ar-
quitetura em problemas de classificação não-lineares ou como um aproximador universal
de função (CYBENKO (1989); KHOTANZAD e CHUN (1998); WAGAR e DEMET-
GUL(2016)).
A arquitetura apresentada é de uma rede MLP totalmente conectada, ou seja,
cada neurônio em qualquer camada da rede é conectado à todos os outros neurônios da
camada anterior e um sinal de entrada da rede avança no sentido da esquerda para a direita
avançando cada camada (HAYKIN, 2009). O vetor que representa os pesos sinápticos de
cada neurônio i da camada escondida é dado por:
43

Figura 15 – Arquitetura MLP multicamadas.

Fonte: Adaptado de HAYKIN (2009).

Figura 16 – Arquitetura MLP com uma camada oculta.

Fonte: Adaptado de HAYKIN (2009).

   
wi0 θi
 .   .. 
wi =  .  
 . = ,
.  (32)
wip wip
em que θi é o limiar.
De forma similar o vetor de peso associado a cada neurônio k da camada de
saı́da é dado por:    
mk0 θk
 .   . 
mk =  .   . 
 .  =  . , (33)
mkq mkq
em que θk é o limiar associado aos neurônios da camada de saı́da k.
O treinamento da rede MLP é composta por duas fases, a primeira fase deno-
minada sentido direto, que envolve o cálculo das ativações e saı́das de todos os neurônios
da camada escondida e de todos os neurônios da camada de saı́da. E a segunda fase
44

(denominada sentido inverso) envolve o cálculo dos gradientes locais e o ajuste dos pesos
de todos os neurônios da camada escondida e de saı́da.
Figura 17 – Fluxo de dados na rede MLP.

Fonte: Adaptado de HAYKIN (2009).

Os neurônios da camada oculta agem como detectores de caracterı́sticas. Con-


forme ocorre o processo de aprendizagem da rede, estes neurônios gradualmente intensi-
ficam as principais caracterı́sticas presentes nos dados de treinamento. Nesse momento
ocorre uma transformação não-linear nos dados de entrada para um novo espaço (deno-
minado espaço de caracterı́sticas).
Na fase 1 do treinamento a informação flui dos neurônios da camada de entrada
para os neurônios da camada oculta. Portanto, para a apresentação de um vetor de
entrada x, em uma iteração t, é necessário calcular as ativações dos neurônio da camada
escondida. O cálculo das ativações é dado por:
p
X
ui (t) = wij (t)xj (t) = wi T (t)x(t), j = 1, 2, ..., p, (34)
j=0

onde T representa um vetor transposto e p é o número de neurônios na camada oculta.


Após os cálculos das ativações dos neurônios da camada escondida é necessário
calcular as saı́das no neurônios da camada de saı́da. O cálculo das ativações dos neurônios
da camada de saı́da é dado por:
q
!
X
ui (t) = φi (ui (t)) = φi wij (t)xj (t) = φi (wi T (t)x(t)), i = 1, 2, ..., p, (35)
j=0

onde a função de ativação φ pode assumir a forma de diversas funções, tais como a
função sigmoidal ou logı́stica (equação 36), tangente hiperbólica (equação 37), gaussiana,
multiquadratica, degrau ou cosseno.

1
φ(ui (t)) = (36)
1 + exp[−ui (t)]

1 − exp[−ui (t)]
φ(ui (t)) = (37)
1 + exp[−ui (t)]
O terceiro passo dessa etapa de treinamento é efetuar o cálculo das ativações
45

dos neurônios da camada de saı́da de forma similar ao cálculo dos neurônios da camada
oculta através das equações 34 e 39.
q
X
uk (t) = mki (t)zi (t) = mi T (t)zi (t), k = 1, 2, ..., M, (38)
i=0

no qual M é o número de neurônios da camada de saı́da, que é igual ao número de


rótulo dos dados. E importante observar que os neurônios da camada oculta, zi (t), nesse
momento representam o papel de entradas para os neurônios da camada da saı́da.
Por fim, a última fase dessa etapa é o cálculo das ativações dos neurônios da
camada de saı́da é dado por:
q
!
X
yk (t) = φk (ui (t)) = φk mki (t)zi (t) = φk (mki T (t)zi (t)), (39)
i=0

em que φk pode assumir as funções de ativação já discutidas aqui nessa seção.
Na segunda fase do treinamento, o sentido inverso, da rede MLP refere-se ao
cálculo dos gradientes locais e ao ajuste dos pesos sinápticos para todos os neurônios da
camada oculta e da camada de saı́da. Portanto, o fluxo de informação é da camada de
saı́da para as camadas escondidas, ou seja, a informação percorre o caminho oposto ao
fase inicial. Nesse tocante se diz que a informação esta fluindo no sentido inverso.
Após os cálculos das ativações dos neurônios da camada oculta e das ativações
dos neurônios de saı́da temos a informação referente ao erro entre a saı́da desejada dk (t)
e a saı́da gerada pele saı́da calculada yk (t). O erro é dado por:

ek (t) = dk (t) − yk (t). (40)

A primeira etapa dessa fase é efetuar o cálculo dos gradientes locais dos
neurônios da camada de saı́da:

δk (t) = ek (t)φ0 (uk (t)), (41)

em que φ0 é a derivada da função de ativação. Então a derivada da função logı́stica e da


tangente hiperbólica são apresentadas a seguir nas equações 42 e 43.

dφk (uk (t))


φ0 (uk (t)) = = yk (t)[1 − yk (t)] (42)
duk (t)
dφk (uk (t)) 1
φ0 (uk (t)) = = [1 − yk 2 (t)] (43)
duk (t) 2
A etapa seguinte segunda fase do treinamento é o cálculo dos gradientes locais
46

na camada oculta:
q
!
X
δi (t) = φ0i (ui (t)) = mki (t)δk (t) , i = 1, 2, ..., q, (44)
i=0

no qual, da mesma forma de anteriormente a derivada da função de ativação para os


neurônios da camada oculta apresenta a mesma forma da equação 42 e 43, porém para
yi (t).
dφi (ui (t))
φ0 (ui (t)) = = yi (t)[1 − yi (t)] (45)
dui (t)
dφi (ui (t)) 1
φ0 (ui (t)) = = [1 − yi 2 (t)] (46)
dui (t) 2
Para finalizar essa fase do treinamento é necessário realizar o ajuste dos pesos
sinápticos (e os limiares também) da rede MLP para a camada oculta e para a camada de
saı́da. O ajuste nessa etapa irá utilizar um método de aprendizado adaptativo denominado
LMS (least mean square), como apresentado em WIDROW et al. (2013) e o algoritmo
pode ser estudado no capı́tulo 3 da referência HAYKIN (2009). O LMS é um exemplo de
algoritmo do tipo sistema estocástico com realimentação (stochastic feedback system).

Figura 18 – Realimentalação do Algoritmo LMS.

Fonte: (HAYKIN, 2009).

Para efetuar a atualização do pesos da camada oculta será utilizada a seguinte


expressão:
wij (t + 1) = wij + ∆wij (t) = wij + α(t)δi (t)xj (t). (47)

onde α(t) é denominada a taxa de aprendizagem.


De forma similar a expressão para o ajuste dos pesos sinápticos para a camada
de saı́da é dada por:

mki (t + 1) = mki + ∆mki (t) = mki + α(t)δk (t)zi (t). (48)

Para um projeto utilizando a rede MLP é necessário avaliar alguns parâmetros.


47

Utilizando-se a arquitetura da rede MLP com apenas uma camada oculta, a rede é repre-
sentada pelo número de variáveis de entrada (p), o número de neurônios ocultos (q) e o
número de neurônios de saı́da (m). O número total de parâmetros (Z) de uma rede MLP
é dada por:
Z = (p + 1)q + (q + 1)m. (49)

De posse dos dados de entrada e saı́da, um projeto da rede neural utilizando a


arquitetura MLP envolve o uso de parte dos parâmetros e o ajuste de outros parâmetros.
A dimensão do vetor de entrada (p) é de fundamental importância para a qualidade do
projeto. Um alto número de entradas não garante um melhor desempenho. Pelo contrário,
um alto número de entradas pode gerar uma redundância no processo de medição.
Outro ponto a se destacar é o vetor de saı́da (M ). Para uma aplicação de
classificação de padrões o número de neurônios é igual ao número de rótulos das classes.
Para codificar os rótulos das classes normalmente se utiliza um vetor binário, no qual
apenas uma componente desse vetor terá o valor “1” identificando qual a classe. Os
outros rótulos que não pertence a classe especificada recebe o valor “0” ou “-1”.
O número de neurônios na camada escondida (q) é uma tarefa difı́cil de se
determinar. Normalmente, ele é encontrado pelo método da tentativa-e-erro. Um valor
alto de neurônios acarreta em um alto desempenho porém com um alto custo compu-
tacional. Porém, o excesso de neurônios pode ocasionar um alto ı́ndice de acerto para
o treinamento e baixo para novos dados introduzidos na rede. Já para o uso de pou-
cos neurônios, o desempenho será ruim. O valor considerado ideal é aquele que permite
atingir as especificações de desempenho do projeto. Na literatura existem diversas regras
heurı́sticas para determinar o número de neurônios.
Em relação a taxa de aprendizado (α), quanto menor for o parâmetro menores
serão as mudanças nos pesos sinápticos da rede de uma iteração para a próxima, e mais
suave será a trajetória no espaço de peso. Esta melhoria, no entanto, é atingida ao custo
de uma menor velocidade de aprendizagem. Se, por outro lado, o parâmetro da taxa
de aprendizagem for muito grande, com o objetivo de acelerar a taxa de aprendizagem,
as alterações abruptas resultantes que os pesos sinápticos podem assumir, possivelmente
pode acarretar uma instabilidade na rede. Um método simples de aumentar a taxa de
aprendizagem, evitando o perigo de instabilidade é a de modificar as equações 47 e 48
incluindo um termo dinâmico denominado fator de momento (η).

wij (t + 1) = wij + α(t)δi (t)xj (t) + η∆wij (t − 1) (50)

mki (t + 1) = mki + α(t)δk (t)zi (t) + η∆mki (t − 1) (51)

O valor da taxa de aprendizado (α) deve ser mantida abaixo de 0,5 para manter
a estabilidade do aprendizado e caso necessário utiliza-se um fator de momento (η) entre
48

0,5 e 1. Com relação à função de ativação utilizada, cada neurônio pode ter a sua função
de ativação, porém para facilitar o projeto todos terão a mesma função de ativação.
Após o treinamento da rede é necessário validá-la, ou seja, testar as suas
saı́das para dados de entrada diferente dos utilizados no treinamento. O procedimento
comum para treinar a rede de posse de N pares de entra-saı́da é utilizar um conjunto de
dados menor (N1 ). Em geral N1 está entre 75% e 90% dos dados totais. Os dados para
treinamento serão N1 e para o teste será N2 = N − N1 .

4.4 Fundamentos da Rede Neural ELM

De acordo com HUANG, ZHU e SIEW (2006), a rede ELM tem como objetivos
alcançar uma alta precisão, com baixa intervenção humana e alta velocidade. Com essas
caracterı́sticas a ELM é uma rede neural de aprendizagem em tempo real (Real-Time
Learning). Que apresenta rápida velocidade de aprendizagem e é de fácil implementação,
sendo bastante utilizada em diversos problemas de classificações de padrões.
Seu uso vem constantemente gerando outras variações mais sofisticadas da
rede e aplicações em diversas áreas tais como a implementação em análise de dados em
Big Data por KASUN et al. (2013), na área médica por BOQUETE et al. (2012) e Kaya
(2013), na área de processamento de imagens com CHEN et al. (2012) e AN & BHANU
(2012). Destacam-se também aplicações na área de robótica e controle por YU, CHOI e
HUI (2012), em aplicações na industria quı́mica com LIU et al. (2012), na área de análise
de séries temporais com BUTCHER et al. (2012), entres outras aplicações.

Figura 19 – Objetivos da rede ELM.

Fonte: (HUANG et al., 2015).


49

Figura 20 – Arquitetura rede ELM.

Fonte: (HUANG and CHEN, 2007).

A rede ELM é uma rede neural do tipo feedforward que apresenta uma única
camada oculta oferecendo pouca intervenção do usuário, referente ao ajustes dos seus
parâmetros se comparada a outras arquiteturas (Perceptron Multicamadas MLP, Funções
de Base Radial e Self-Organized-Maps).
A arquitetura da rede ELM, Figura 20, apresenta os neurônios da camada
oculta (primeira camada de peso sinápticos) e os neurônios da camada de saı́da (segunda
camada de pesos sinápticos). É semelhante à rede MLP, porém apresenta uma fase de
aprendizado muito mais rápida. De foma semelhante a rede MLP o vetor de pesos da
camada escondida para cada neurônio i é representado por wi , conforme apresentado na
equação 32. O vetor de peso a cada neurônio k da camada de saı́da é representado por
mk , conforme apresentado na equação 33.
Podemos dividir as etapas de implementação da rede ELM em três partes. A
inicialização aleatória dos pesos sinápticos dos neurônios da camada oculta e da camada de
saı́da, o acúmulo das saı́das dos neurônios ocultos e por fim o cálculo dos pesos sinápticos
dos neurônios de saı́da, no qual as duas primeiras partes são responsáveis pelo treinamento
da rede neural.
Na primeira etapa, inicialização aleatória dos pesos sinápticos de todos os
neurônios das camadas ocultas (wij ) e de saı́da (mki ). Podemos realizar essa inicialização
utilizando uma distribuição uniformemente distribuı́da em um determinado intervalo (a, b)
(equação 52), ou utilizar uma distribuição normal (gaussiana) com média nula e variância
σ 2 (equação 53).

wij ∼ U (a, b) (52)

wij ∼ N (0, σ 2 ) (53)

A segunda etapa do treinamento é responsável pelo acúmulo das saı́das dos


neurônios ocultos da mesma forma apresentada na rede MLP. O fluxo de informação
50

propaga-se da camada oculta para a camada de saı́da, ou seja, fluido no sentido direto
(Figura 17). Para calcular as ativações sinápticas dos neurônios da camada escondida em
uma iteração t para um determinado vetor de entrada x e um determinado número de
neurônios na camada oculta (q) é utilizado a seguinte expressão:
p
X
ui (t) = wij xj (t) = wiT x(t), i = 1, . . . , q. (54)
j=0

Após o cálculo das ativações dos pesos sinápticos de cada neurônio da camada
oculta é calculada as saı́das correspondentes na camada de saı́da na seguinte expressão:
p
!
X
= φi wiT (t)x(t) ,

zi (t) = φi (ui (t)) = φi wij (t)xj (t) (55)
j=0

em que φ é a função de ativação já discutida anteriormente na rede MLP.


Da mesma forma que na rede MLP, será utilizado o LMS como método de
aprendizado adaptativo. Dessa forma a atualização dos vetores de pesos do k-ésimo
neurônio de saı́da na iteração t é dado pela seguinte expressão:

mk (t + 1) = mk (t) + α(t)ek (t)z(t) (56)

em que α é a taxa de aprendizado, ek é o erro entre a saı́da calculada e o a saı́da-alvo.


Em outro método comumente utilizado para o cálculo dos pesos da camada
de saı́da, podemos assumir que esse cálculo é um mapeamento linear entre as camadas
oculta e de saı́da e utilizar o método dos mı́nimos quadrados. Um vetor de entrada para
a camada de saı́da em uma iteração t é z(t) e o vetor de saı́da é representado por d(t). A
matriz que representa o mapeamento M linear é dado por:

d(t) = Mz(t) (57)

Seja D a matriz de vetores, onde teremos N vetores d(t) ao longo das colunas
e Z a matriz de vetores de pesos para a camada de saı́da. utilizando D e Z a matriz M
é dada por:
M = DZT (ZZT )−1 (58)

Observa-se que para calcular M é necessário realizar uma inversão de matriz.


Essa inversão de matriz não é aconselhada porque o método dos mı́nimos quadrados não
é estável numericamente. A instabilidade numérica no contexto do cálculo numérico se
dá quando alguns problemas ou algoritmos possuem a propriedade de ampliar os erros
presentes nos dados de entrada e assim invalidar a saı́da ou a resposta requerida.
A instabilidade numérica pode estar relacionada às propriedades matemáticas
51

do problema ou então da estrutura do algoritmo utilizado para resolvê-lo. De qualquer


maneira, ao estudar um problema que pretendemos reescrever numericamente é impres-
cindı́vel a análise de estabilidade do algoritmo ou o condicionamento do problema ma-
temático. No caso é necessário observar o posto da matriz conforme citado anteriormente.
Para contornar esses problemas na implementação do método dos mı́nimos
quadrados deve-se utilizar o método da matriz pseudo-inversa de Moore-Pensore, que é um
método direto baseado em decomposição conjugada em valores singulares para calcular a
matriz inversa. No Matlab a função que implementa a decomposição em valores singulares
é a pinv().

4.5 Resumo do Capı́tulo

Nesse capı́tulo foram apresentadas inicialmente as arquiteturas das redes MLP


e ELM feedforward com apenas uma camada oculta e totalmente conectadas. Foi descrito
a importância dos seus principais parâmetros envolvidos. Foi apresentados os modelos
matemáticos de ambas as redes e sua notação para representar os dados de entradas, os
pesos sinápticos das camadas e as ativações que serão utilizadas neste trabalho.
Também foram apresentados os métodos de aprendizagem adaptativo com o
algoritmo de retropropagação dos erros com gradiente descendente (LMS) e o método dos
mı́nimos quadrados.
O próximo capitulo irá apresentar a implementação dessas duas arquiteturas
de redes apresentadas com a utilização dos atributos extraı́dos conforme apresentados no
capı́tulo 3.
52

5 IMPLEMENTAÇÃO

Este capı́tulo é dedicado a apresentar a metodologia utilizada no trabalho e


como serão implementados os procedimentos de extração, rotulação dos dados e a clas-
sificação proposta. Em cada etapa será descrita a forma de implementação fazendo um
link com a revisão bibliográfica e os métodos computacionais utilizados.

5.1 Metodologia Utilizada

Na introdução deste trabalho foi comentada uma breve explicação da meto-


dologia a ser utilizada no trabalho. Essa seção irá desmembrar de forma mais especı́fica
quais os procedimento que serão realizados. Na Figura 21 são apresentados de forma
resumida os passos que serão implementados.

Figura 21 – Metodologia utilizada.

Fonte: eleborado pelo autor.

No capı́tulo 3 foram discutidas as principais caracterı́sticas o sinal EEG. Pode-


se destacar como a principal caracterı́stica o fato do sinal do EEG ser não-estacionário.
Porém, neste trabalho será assumido a sua estacionaridade para um intervalo de tempo t
menor ou igual a dois segundos.
A cada segmentação do sinal no intervalo de 2 segundos, 512 amostras, aplicam-
se os seguintes passos:
1. realizar a extração de features utilizando o periodograma de Welch;
2. estimar os coeficientes do modelo AR(p) e a ordem do modelo adequada, e;
3. rotular o intervalo com as classes de forma binária, +1 representa a ocorrência de
um evento de crise epiléptica convulsiva e −1 representa a ausência do evento.
No fim do processo de extração de features e da rotulação, são obtidos três
53

arquivos .dat representando os vetores de caracterı́sticas de cada método e o vetor alvo.


Os arquivos serão utilizados para o treinamento dos classificadores implementados nas
máquinas de aprendizado citadas no capitulo 4 (ELM e MLP). Portanto, teremos quatro
cenários distintos que serão comparados utilizando testes de desempenho para os classifi-
cadores.

5.2 Extração de Atributos

No capı́tulo 2, foram apresentadas as caracterı́sticas do conjuntos de dados


do EEG que será utilizado. Para cada paciente descrito no banco de dados temos a
configuração de canais utilizadas e foi visto também que o sinal do EEG é composto
por 23 canais. No entanto, SHIH(2009) apresentou em seu trabalho que a utilização de
somente cinco canais não afeta o desempenho da detecção de um evento. É necessário
salientar que o trabalho citado utilizou o mesmo banco de dados.
Nesse trabalho será proposto a utilização de seis canais em todas as situações.
Na literatura existem trabalhos que otimizam a escolha do canal de acordo com cada
caso, . Porém, neste trabalho iremos escolher seis canais distintos (F3-CE, C3-P3, P3-O1,
F4-C4, C4-P4 e P4-O2). A escolha dos melhores canais será um dos temas propostos nas
discussões sobre trabalho futuros.
A estimação da PSD utilizando o periodograma de Welch, visto na seção 3.2,
foi implementada seguindo os seguintes passos:
1. faz a varredura em um intervalo de tempo t e guarda as amplitudes dos seis canais
selecionados, onde cada canal terá t vezes 256 amostras;
2. aplica-se o periodograma de Welch em todos os n canais, a função irá retornar a
densidade espectral de potencia (PSD) estimada e a frequência;
3. o próximo passo é transforma a PSD estimada, cuja unidade é V 2 /Hz, para uma
escala mais apropriada. Comumente se utiliza uma escala logarı́tmica, ou seja
P SD(dB) = 10 ∗ log10 (P SD);
4. em seguida é efetuado o cálculo da PSD média para as bandas ou ritmos de frequências,
citados na seção 2.3. Para cada uma das cinco principais bandas de frequência (alpha
(α), theta (θ), beta (β), delta (δ) e gama (γ)) calcula-se a média da densidade es-
pectral de potência estimada, e;
5. após o término do item 4 temos cada canal com as médias dos cinco ritmos cerebrais.
Por fim, é calculada um média para cada faixa de frequência nos cindo canais.
Portanto o vetor de caraterı́sticas extraı́do por esse método é a densidade
espectral de potência estimada média em cada ritmo cerebral em todos os canais utilizados.
Sendo assim pode-se representar o vetor de caracterı́stica como:

xu (t) = {δm (t), θm (t), αm (t), βm (t), γm (t)} (59)


54

Figura 22 – Processo de extração de parâmetros utilizando o


método Welch.

Fonte: eleborado pelo autor.

onde t é o intervalo de tempo referente a leitura a cada dois segundos.


Como apresentado anteriormente o periodograma de Welch é um tipo de peri-
odograma modificado. Para esta aplicação será utilizada a janela gaussiana de tamanho
128, conforme apresentada no Gráfico 5. De forma a apresentar as diferenças da estimação
da PSD causada pelo tamanho e o tipo de janela a ser utilizado serão apresentados a se-
guir alguns exemplos onde será realizado o cálculo da PSD estimada em três canais de
um sinal do EEG no intervalo de dois segundos.

Gráfico 5 – Janela gaussiana(128).

Fonte: eleborado pelo autor.

No Gráfico 7 é apresentado um exemplo do uso da janela gaussiana(128) que


será utilizada no trabalho. Outra alternativa comumente usada é a janela de Black Ma-
nharris(128), apresentada no Gráfico 6. O exemplo da utilização da janela de Black
55

Manharris é apresentado a seguir no Gráfico 8. Comparando o uso das duas janelas para
esse conjunto de dados é possı́vel observar que as duas apresentam uma PSD aproximada,
porém a janela de Black Manharris (128) apresenta as curvas levemente mais suaves em
relação a janela gaussiana (128).

Gráfico 6 – Janela Black Manharris(128).

Fonte: eleborado pelo autor.

Gráfico 7 – PSD estimada utilizando janela


gaussiana(128).

Fonte: Elaborada pelo autor.

Outro parâmetro da janela utilizada no periodograma de Welch que modifica


a estimação da PSD é o tamanho da janela. Quanto menor o tamanho da janela utilizada
maior será a suavização da curva do PSD. A escolha da janela e de seu tamanho é de
fundamental importância para essa etapa da extração de features, pois utilizar uma janela
56

Gráfico 8 – PSD estimada utilizando janela Black


Manharris(128).

Fonte: Elaborada pelo autor.

cuja saı́da da estimação da PSD seja suavizada pode acarretar em perda de informações
essenciais para os procedimentos posteriores. Os mesmos dados foram submetidos às
mesmas janelas utilizada anteriormente porém com um tamanho de 64, os gráficos 9
e 10 apresentam a PSD para as janelas gaussiana(64) e Black Manharris(64). Sendo
assim, observa-se claramente a diferença entre os resultados apresentados para as situações
propostas nos exemplos quando se considera o tamanho da janela utilizada.

Gráfico 9 – PSD estimada utilizando janela


gaussiana(64) .

Fonte: Elaborada pelo autor.

Os dados apresentados nos exemplos são referentes ao EEG do paciente 1


57

Gráfico 10 – PSD estimada utilizando janela Black


Manharris(64).

Fonte: Elaborada pelo autor.

no intervalo de 10 a 12 segundos iniciais do arquivo chb01 03.edf. Nesse intervalo não


há a ocorrência de evento de crise epiléptica no paciente. Quando se observa o mesmo
processo anterior em um intervalo onde há a ocorrência de uma crise epiléptica convulsiva,
no Gráfico 7, é possı́vel verificar visualmente que o comportamento da PSD estimada no
Gráfico 11 em relação ao Gráfico 7 é bem distinta. Essa foi a motivação do uso deste
método de extração de atributos para esses dados.

Gráfico 11 – PSD estimada em um intervalo de crise


epiléptica.

Fonte: Elaborada pelo autor.

O vetor de atributos calculado para o intervalo de dados apresentado no exem-


58

plo do Gráfico 7, onde não há evento de crise epiléptica convulsiva, em comparação com
o calculado para um intervalo onde ocorre uma crise, são apresentados na Tabela 3. Fica
claro e evidente que há uma aumento da energia espectral dissipada em um evento de
crise epiléptica quando se observa a média dos ritmos cerebrais nos três canais analisados.

Tabela 3: Vetor de caracterı́sticas para os intervalos.


- 10 ≤ t ≤ 12 3002 ≤ t ≤ 3004
delta 22.25 32.01
theta 15.49 24.34
alpha 13.62 13.56
beta 1.88 5.33
gamma -17.15 -4.34

Como apresentado anteriormente o outro método proposto neste trabalho é


a estimação dos parâmetros de um modelo AR(p), apresentado na seção 3.3, através de
equação de Yule-Walter. Nesse método, o objetivo é estimar os coeficientes e a ordem que
mais se adequará ao modelo do EEG.
Uma forma de estimar qual a ordem do modelo que mais se encaixa aos dados
da série temporal é a utilização da função de autocorrelação parcial (FACP). Sabe-se que
o sinal do EEG é não-estacionário observando a sua função de autocorrelação, apresentada
no Gráfico 12, temos a função de autocorrelação da amostra de 10 segundos do canal 1
do EEG referente ao arquivo chb01 03.edf. Observar-se que o sinal do EEG apresenta um
sinal com forte memória e sua função de autocorrelação apresenta um comportamento
oscilatório. A identificação de uma situação desta natureza pode sugerir a necessidade de
filtrar esta componente, procurando subtrair à série um termo sinusoidal, por exemplo.

Gráfico 12 – Função de autocorrelação de 10 segundos


de EEG.

Fonte: Elaborada pelo autor.


59

Gráfico 13 – Função de autocorrelação parcial do EEG.

Fonte: Elaborada pelo autor.

A utilização da ferramenta da FACP auxilia na escolha da ordem de um modelo


AR(p), porém devido à natureza caótica do sinal do EEG a sua FACP, apresentada no
Gráfico 13, destaca a possibilidade de diversas ordens. Esse gráfico foi gerado para um
intervalo de 2 segundos com um lag de 50 amostras.
Observando-se o gráfico da FACP nota-se que as ordens que se destacam são :
1, 2, 4, 5, 17, 19, 21, 27 e 50. A utilização de modelos AR(p) com ordem muito grande irá
aproximar o modelo de forma a ficar muito próximo aos sinais reais, porém a utilização
de muitos parâmetros aumenta o vetor de caracterı́sticas consideravelmente. Utilizando
o princı́pio da parcimônia ou navalha de Occan iremos adotar nesse trabalho os modelos
de ordem mais simples, sendo assim será utilizado a estimação de parâmetros para os
modelos de ordem 2 e 4.
A extração de atributos utilizando o método de estimação dos coeficientes de
um processo AR(p) através da equação de Yule-Walker irá seguir os seguintes procedi-
mentos apresentados na Figura 23. Os procedimentos são:
1. faz a varredura em um intervalo de tempo t e guarda as amplitudes dos seis canais
selecionados, onde cada canal terá t vezes 256 amostras;
2. é escolhida a ordem do modelo p;
3. após definir a ordem do modelo é aplicada a equação de Yule-Walker para a estimar
os coeficientes em cada canal;
4. cada canal irá retornar p coeficientes, e;
5. por fim organizar todos os coeficientes (p x número de canais) em um vetor.
Para um modelo de ordem 2, utilizando os mesmos seis canais do método
60

Figura 23 – Processo estimação dos parâmetros de um modelo


AR(p).

Fonte: eleborado pelo autor.

anterior será formado por um vetor de 12 caracterı́sticas representado por:

xu (t) = {φ11 (t), φ12 (t), φ21 (t), φ22 (t), ..., φpc (t)}, (60)

em que p é a ordem do modelo escolhido e c é o número de canais.


De posse dos métodos de extração de caracterı́sticas do sinal do EEG extraı́dos
pelos dois métodos apresentados anteriormente, o próximo passo é rotular cada intervalo
de dados em duas classes: normal e crises epiléptica convulsiva.
Foi verificado que os mesmos apresentam uma quantidade muito maior de
intervalos referentes a perı́odos de atividade normal do que em eventos de crises epitética
convulsivas. Sendo assim, analisando a catalogação dos dados para o paciente 1 por
exemplo, seis horas e 38 minutos de dados dos quais apenas 446 segundos (certa de 7
minutos) são registrados em eventos de crise epiléptica convulsiva. Ou seja, apenas 1,8%
dos dados para esse paciente são referentes a eventos com crise epiléptica.
Dessa forma foi realizada a seguinte estratégia para a escolha dos dados que
serão utilizados nos classificadores em dois tipos: treinamento e teste. A estratégia ado-
tada será:
1. para cada paciente analisado, verificar qual o arquivo de gravação que apresenta o
maior intervalo de tempo com indicação de crise epiléptica convulsiva;
2. aplicar a extração de atributos com os dois métodos para o outros arquivos de todos
os intervalos que apresentaram um evento de crise, e juntar todos em um único
arquivo, e;
3. aplicar a extração de atributos com os dois métodos para todo o arquivo selecionado
no passo 1.
No fim do processo serão obtidos para cada paciente, 2 arquivos para cada
61

método de extração que serão utilizados nos classificadores. Em que um arquivo conterá
o vetor de caracterı́sticas para cada intervalo de todos os eventos que apresentaram uma
crise epiléptica e o segundo arquivo conterá os vetores de caracterı́sticas para todo o
arquivo de gravação como o maior intervalo de dados de crise epilépticas. Tomando como
referência o exemplo do paciente 1, o arquivo como o maior tempo registrado de crises é
o ch01 26.edf.
Após a extração dos vetor de atributos do paciente 1 através no método de
Welch, observou-se que será necessário realizar um balanceamento do dados de entrada,
pois para o paciente 1 o arquivo de teste contem 1162 intervalos, do quais 50 apresentam
crises, e o arquivo que apresenta todas as demais crises epilépticas convulsivas desse
paciente contém 169 intervalos. Sendo assim, apenas cerca de 15% dos intervalos são da
classe que apresenta algum tipo de crise. Portando optou-se por utilizar um proporção
entre no mı́nimo 1/4 e no máximo 1/2 dos dados.
As funções desenvolvidas para a extração de atributos são apresentadas no
Apêndice A.

5.3 Implementação dos Classificadores

No capı́tulo 4 foram apresentados duas arquiteturas de redes neurais utilizadas


como classificadores: a ELM e a MLP. Nesta seção será destacado como os classificadores
serão implementados e apresentados os cenários propostos para analisar a utilização dos
métodos de extração. Sabe-se que as redes neurais atuam como classificadores através de
soluções não-lineares. Uma boa prática adotada para o uso de classificação de padrões é
utilizar a princı́pio um modelo linear e posteriormente o uso de ferramentas não lineares.
Portanto, será implementado uma solução linear utilizando os método dos
mı́nimos quadrados (MMQ), já discutido na seção 4.2. Para um vetor de caracterı́sticas
xu e um vetor de saı́das du , o uso dos métodos dos mı́nimos quadrados pretende encontrar
um relação linear entre a entrada e a saı́da sendo assim:

du (t) = Axu (t), (61)

escrevendo de forma matricial A é determina por:

A = DXT (XXT )−1 , (62)

conforme discutido anteriormente, esse método é implementado comumente utilizando a


pseudo-inversa.
Portanto, os passos para a implementação do classificador linear proposta
serão:
1. ler e carregar os arquivos com os dados dos vetores de caracterı́sticas e o dados do
62

arquivo selecionado para teste;


2. embaralhar os dados (teste e treinamento) mantendo os pares inalterados.
3. separar uma porção dos dados para treinamento e teste, variando entre 60% e 80%;
4. determinar A pelo método dos mı́nimos quadrados com os dados de teste;
5. fazer o teste do modelo calculando os diagnósticos preditos com os dados de testes;
6. calcular o número de acertos, os dados estatı́sticos da classificação e obter a matriz
de confusão.
O embaralhamento do dados foi com o intuito de evitar a polarização do trei-
namento da rede decorrente da apresentação de uma grande quantidade de dados similares
em sequência. No Apêndice A (item 3) é apresentado o código que implementa o classifi-
cador dos mı́nimos quadrados.
O próximo classificador a ser implementado é utilizando uma rede neural com a
arquitetura MLP, apresentado na seção 4.3. A arquitetura da MLP que será implementada
será totalmente conectada utilizando método de aprendizado adaptativo LMS. O primeiro
é a escolha do parâmetros da arquitetura que será utilizada. Sendo assim é necessário
definir o número de neurônios da camada oculta(q) e de saı́da (m).
O valor de q é geralmente encontrado por tentativa-e-erro, o valor de m é 1
pois se trata de uma classificação binária, o fator de aprendizagem α = 0, 01 e o fator de
momento η = 0, 5.
Portanto os passos para a implementação do classificador utilizando a arqui-
tetura MLP proposto são:
1. ler e carregar os arquivos com os dados dos vetores de caracterı́sticas e o dados do
arquivo selecionado para teste;
2. embaralhar os dados de entrada e saı́da mantendo os pares inalterados;
3. definir a arquitetura da rede e define a porcentagem de dados que são utilizados
para teste e treinamento;
4. inicia um loop de rodadas de teste e treinamento;
5. embaralhar novamente os dados de entrada e saı́da mantendo os pares inalterados;
6. separar os dados para teste e treinamento e iniciar as matrizes de peso da camada
oculta e saı́da;
7. após inicialização dos pesos das camada de entrada na etapa de treinamento e depois
do treinamento inicializar a etapa de generalização;
8. finaliza o loop, e;
9. calcular o número de acertos, os dados estatı́sticos da classificação e obter a matriz
de confusão.
A inicialização é aleatória e foi usado um processo pseudo-aleatório de distri-
buição normal de média nula e variância 0,01. Onde é necessário destacar que a etapa de
treinamento apresenta as seguintes etapas:
1. iniciar um loop referente ao número de épocas de aprendizado;
63

2. embaralhar os vetores de treinamento que serão utilizados;


3. fazer a ativação da camada oculta e de saı́da, nessa etapa é definida que a função
não-linear a ser utilizada é a função logı́stica;
4. após a cálculo das saı́das preditas é possı́vel efetuar o cálculo do erro;
5. fazer o cálculo dos gradientes locais para a camada de saı́da e oculta e realizar o
ajuste dos pesos das matrizes na camada de saı́da e oculta;
6. finalizar o loop referente ao número de épocas, e;
7. calcular a média do erro quadrático por época;
Por fim, na etapa de generalização é efetuada a ativação da camada oculta e de
saı́da, calculado o erro entre a saı́da desejada e a saı́da da rede, calculados os gradientes
locais para as camadas de saı́da e oculta. Após realizadas essas etapas, calcula-se o erro
quadrático geral. Finalizada a etapa de generalização calcula-se os dados estatı́sticos
refentes aos resultados. No infográfico da Figura 24, apresenta-se um resumo dos passos
para a implementação desse classificador.
Figura 24 – Etapas de implementação da Rede Neural MLP.

Fonte: eleborado pelo autor.

A implementação do classificador baseado em rede neurais com arquitetura


MLP é apresentado no Apêndice A (item 4), onde os passos a apresentados acima são
implementados em funções para facilitar o reuso de código.
Conforme apresentado na seção 4.4, a arquitetura ELM apresenta três etapas
para sua implementação: a inicialização aleatória dos pesos sinápticos dos neurônios da
camada oculta e de saı́da, em seguida o acúmulo das saı́das dos neurônios ocultos e finaliza
com o ajuste dos pesos sinápticos dos neurônios de saı́das.
As etapas de implementação do classificador utilizando a arquitetura ELM
apresenta algumas similaridades com a arquitetura MLP. Sendo assim os passos para a
64

implementação da arquitetura ELM são:


1. ler e carregar os arquivos com os dados dos vetores de caracterı́sticas e o dados do
arquivo selecionado para teste;
2. embaralhar os dados de entrada e saı́da mantendo os pares inalterados;
3. definir a arquitetura da rede e definir a porcentagem de dados que são utilizados
para teste e treinamento;
4. escolher de forma aleatória dos pesos e limiares dos neurônios intermediários;
5. fazer a ativação dos neurônios da camada intermediara e aplicar a função não-linear;
6. estimar os parâmetros do classificador (pesos e limiares) pelo método dos mı́nimos
quadrados (classificador sem camada oculta);
7. determinar as predições da classes dos vetores de teste;
8. determinar as taxas de acerto/erro e dados estatı́stico da rede;
A implementação em código do classificar utilizando a arquitetura da rede
ELM é apresentado no Apêndice A (item 5). No infográfico da Figura 25, apresenta-se
um resumo dos passos para a implementação da Rede ELM.

Figura 25 – Etapas de implementação da Rede Neural ELM.

Fonte: eleborado pelo autor.

De forma a realizar um comparação entre os classificadores implementados


serão calculados alguns resultados estatı́sticos do classificador para realizar um teste de
desempenho entre eles. Através da matriz de confusão pode-se dividir os resultados das
predições em 4 tipos:
1. Verdadeiro Positivo (VP ): número de predições verdadeiro positivas;
2. Verdadeiro Negativo (VN ): número de predições verdadeiras negativas;
3. Falso Positivo (FP ): número predições falso positivos, e;
4. Falso Negativo (FN ): número de diagnósticos falso negativo.
De posse das informações obtidas na matriz de confusão, podem ser calculados
os seguintes dados estatı́sticos:
65

• acurácia (AC) ou precisão: a proporção de predições corretas, sem levar em con-


sideração o que é positivo e o que é negativo. Esta medida é altamente suscetı́vel a
desbalanceamentos do conjunto de dados e pode facilmente induzir a uma conclusão
errada sobre o desempenho do sistema:

(VP + VN )
AC = (63)
T OT AL

• sensibilidade (SB): a proporção de verdadeiros positivos, ou seja, a capacidade


do sistema em predizer corretamente a condição para casos que realmente a têm;

VP
SB = (64)
(VP + FN )

• especificidade (EP ): A proporção de verdadeiros negativos, ou seja, a capaci-


dade do sistema em predizer corretamente a ausência da condição para casos que
realmente não a têm.
VN
EP = (65)
(VN + FP )
• eficiência (EF): A média aritmética da Sensibilidade e Especificidade. Na prática,
a sensibilidade e a especificidade variam em direções opostas. Isto é, geralmente,
quando um método é muito sensı́vel a positivos, tende a gerar muitos falso-positivos,
e vice-versa. Assim, um método de decisão perfeito (100% de sensibilidade e 100%
especificidade) raramente é alcançado, e um balanço entre ambos deve ser atingido.

SB + EP
EF = (66)
2

• valor preditivo positivo ou negativo: o valor preditivo positivo (VPP) é a


proporção de verdadeiros positivos em relação a todas as predições positivas, já o
valor preditivo negativo a proporção de verdadeiros negativos em relação a todas as
predições negativas. Estas medidas são altamente suscetı́veis a desbalanceamentos
do conjunto de dados e pode facilmente induzir a uma conclusão errada sobre o
desempenho do sistema.
VP
V PP = (67)
(VP + FP )
VN
V PN = (68)
(VN + FN )
• coeficiente de correlação de Matthews (φ): é uma medida de qualidade de duas
classificações binárias que pode ser usada mesmo se as classes possuem tamanhos
bastante diferentes. Retorna um valor entre (-1) e (+1), em que um coeficiente de
(+1) representa uma predição perfeita, (0) representa uma predição aleatória media,
e (-1) uma predição inversa. Esta estatı́stica é equivalente ao coeficiente φ, e tenta,
66

assim como a eficiência, resumir a qualidade da tabela de contingência em um único


valor numérico passı́vel de ser comparado.

(VP ∗ VN − FP ∗ FN )
φ= p (69)
(VP + FP ) ∗ (VP + FN ) ∗ (VN + FP ) ∗ (VN + FN )

5.4 Resumo do Capı́tulo

Este capı́tulo apresentou como foram implementadas as técnicas de extração de


atributos utilizadas nesse trabalho. A princı́pio foram apresentadas as metodologia para
o uso de cada método e as etapas de desenvolvimento. No caso do periodograma de Welch
foi apresentada como será formado o vetor de atributos e foi verificado o comportamento
do periodograma para alguns intervalos de forma a apresentar a motivação do uso deste
método.
Em seguida foi apresentada a implementação do método de estimação dos
parâmetros de um modelo AR(p), nesse momento foi destacado através da função de
autocorrelaçao e da função de autocorrelaçao parcial o comportamento do sinal do EEG.
Foi apresentado a metodologia que será utilizada e os passos para sua implementação.
Por fim foi apresentado o vetor de caracterı́sticas utilizado.
Em seguida destacou-se como serão separados os dados para teste e para trei-
namento visto que há uma maioria que se absoluta de dados no perı́odo onde não ocorre
nenhum evento de crise.
O capı́tulo também apresentou a implementação de três classificadores, sendo
um linear utilizando o método dos mı́nimos quadrados e dois já discutidos anteriormente
utilizando redes neurais. Para cada um dos classificadores foram destacados os principais
passos de implementação.
Por fim foi apresentado os parâmetros do teste de desempenho que será utili-
zado para a comparação dos resultado adquiridos nos classificadores e cenários que serão
apresentados no capı́tulo seguinte.
67

6 RESULTADOS OBTIDOS

Nesse capı́tulo, serão apresentados os resultados obtidos para diversos cenários


propostos, com o objetivo de avaliar os classificadores utilizados e oS métodos de extração
de caracterı́sticas propostos para três pacientes do banco de dados citado. Os pacientes
escolhidos para análise foram 1, 5 e 8, e o catalogo dos dados de cada paciente se encontra
no Anexo A. Na literatura destacam-se trabalho como o de SUBASI e ERCEBELI (2005)
obtiveram taxas de acerto em torno de 89,3 à 93% em três tipos de classificadores. No
trabalho CHAN et al. (2008) apresentou uma sensibilidade na classificação em torno de
84,89 à 94% utilizando a extração de atributos através da FFT e o classificador do tipo
SVM. Portanto, os resultados considerados satisfatórios deverão apresentar desempenho
igual ou superior a estes citados.
Com o uso de dois métodos de extração e três classificadores formam-se então
um total de seis cenários de comparação, apresentados na Tabela 4.

Tabela 4: Cenários propostos.


- MMQ MLP ELM
Welch Cenário A Cenário C Cenário E
AR(p) Cenário B Cenário D Cenário F

Iniciando pelo Cenário A, onde será implementado o método de extração


de atributos através do periodograma de Welch e o uso do classificador linear através
do método dos mı́nimos quadrados. Utilizou-se um conjunto de dados no qual 36% dos
intervalos são rotulados com crise epiléptica convulsiva. Do total de dados, 70% serão
utilizados para o treinamento e 30% para testes.
Foram realizadas cem rodadas no qual em toda a rodada os dados eram em-
baralhados mantendo a paridade com a saı́da. Para cada rodada se calculou a taxa de
acerto. No final das cem rodadas obteve-se em relação a taxa de acetos: média, máximo,
mı́nimo, mediana e seu desvio padrão. Na Tabela 5 este resultados são apresentados para
cada paciente:

Tabela 5: Dados estatı́sticos referentes à taxa de acertos - Cenário A.


- Média Máxima Mı́nima Mediana Desvio Padrão
Paciente 1 94.06 98.24 89.47 94.15 1.66
Paciente 5 95.38 98.38 90.32 95.69 1.46
Paciente 8 72.46 80.00 65.71 72.38 2.96

A Tabela 6 apresenta as matrizes de confusão para o melhor caso para os


pacientes 1, 5 e 8 respectivamente. Através da matriz de confusão é possı́vel efetuar o
cálculo dos dados referente ao teste de desempenho do classificador proposto. A Tabela
7 apresenta todos os dados referentes à média, melhor e pior caso de cada paciente.
68

Tabela 6: Matrizes de Confusão para os melhores resultados do Cenário A.


Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
107 3 105 3 52 27
0 61 0 78 15 116
FP VP FP VP FP VP

Tabela 7: Resultados do teste de desempenho para o cenário A.


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 98.24 89.47 94.04 98.38 90.32 95.67 80.00 65.71 72.46
SB 95.31 82.6 87.97 96.29 87.2 93.38 88.11 81.45 81.11
EP 100.00 94.11 97.83 100.00 93 97.62 77.66 43.03 58.92
EF 97.65 88.36 92.9 98.14 90.1 95.5 79.36 62.23 70.02
VPP 100.00 90.47 96.21 100 91.46 97.01 88.54 67.33 75.99
VPN 97.27 88.88 92.87 97.22 89.42 97.6 65.85 61.66 66.11
φ 0.96 0.78 0.87 0.96 0.8 0.91 0.56 0.26 0.41

Nos resultados é possı́vel observar um queda de desempenho do classificador


para o paciente 8.É válido salientar que este paciente apresenta as crises com maior
intervalo de tempo. É importante observar o comportamento dos próximos classificadores
para este paciente.
O Cenário B representa a implementação do método dos mı́nimos quadrados
utilizando a estimação dos parâmetros do modelo AR(p) como vetor de atributos. Foi
destacado na seção referente ao método de extração proposto que as ordens utilizadas
seriam 2 e 4. Sendo assim, para cada paciente, foi realizado o processo de extração duas
vezes e aplicado o classificador proposto nesse e nos outros cenários a seguir. O objetivo da
comparação de duas ordens é verificar se o modelo de menor ordem é capaz de representar
as caracterı́sticas referentes à estados normais e de eventos de crises epilépticas.

Tabela 8: Dados estatı́sticos percentuais referentes à taxa de acertos - Cenário B.


- Ordem Média Máxima Mı́nima Mediana Desvio Padrão
p=2 90.80 95.90 84.79 91.22 2.07
Paciente 1
p=4 95.49 100.00 91.22 95.32 1.50
p=2 88.13 94.08 82.79 88.17 2.14
Paciente 5
p=4 97.60 100.00 95.16 97.84 0.99
p=2 92.22 97.26 87.21 92.23 1.74
Paciente 8
p=4 95.05 98.17 91.32 94.97 1.19

Para cada situação, foram geradas as matrizes de confusão para os melhores


casos de cada paciente. Através das matrizes de confusão foi possı́vel calcular os dados do
teste de desempenho para o Cenário B, utilizando a ordem do modelo AR(2) e AR(4). As
matrizes de confusão dos melhores resultados são apresentados para os modelos AR(2) e
AR(4) nas Tabela 9 e Tabela 10 respectivamente.
69

Tabela 9: Matrizes de Confusão para os melhores resultados do Cenário, AR(2).


Paciente 1 Paicente 5 Paciente 8
VN FN VN FN VN FN
105 1 129 8 97 1
6 59 0 7 5 116
FP VP FP VP FP VP

Tabela 10: Matrizes de Confusão para os melhores resultados do Cenário B, AR(4).


Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
111 0 125 0 108 2
0 60 0 61 2 107
FP VP FP VP FP VP

Finalizado os resultados do Cenário B, serão apresentadas as tabelas referentes


aos dados do teste de desempenho proposto. O resultado da Tabela 11 refere-se a ordem
do modelo AR(2) e a Tabela 12 do AR(4).
Observando as tabelas 8, 11 e 12 nota-se que o uso de do modelo AR(4) apre-
sentou melhores resultados em todos os testes em relação ao AR(2), e que o baixo ı́ndice
de acertos encontrado no paciente 8 no cenário anterior não se repetiu nesse cenário.
Uma hipótese com relação a essa diferença de desempenho entre os dois métodos de ex-
tração no mesmo classificador é o comportamento da espalhamento espectral de potência
na ocorrência de um evento de longa duração possa ser melhor interpretado através do
modelo AR(4) do que o periodograma de Welch.

Tabela 11: Resultados do teste de desempenho para o cenário B, AR(2).


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 95.90 84.79 90.8 94.08 82.79 88.13 97.26 87.21 92.22
SB 98.33 73.84 85.45 86.56 66.25 74.85 99.14 92.97 96.05
EP 94.59 91.5 94.11 98.31 95.28 95.41 95.09 81.13 87.96
EF 96.46 82.67 89.78 92.44 81.96 85.13 97.12 87.02 92.01
VPP 90.76 84.21 89.98 96.66 91.37 89.9 95.86 84 90.03
VPN 99.05 85.08 91.3 92.85 78.9 87.45 98.97 91.48 95.07
φ 0.91 0.67 0.8 0.87 0.65 0.73 0.94 0.74 0.84

O Cenário C apresenta a implementação do classificador utilizando a rede


neural com arquitetura MLP. Para essa implementação foi proposta uma arquitetura com
um neurônio de saı́da e o número de neurônios da camada oculta foi determinado variando
o número de neurônios de 2 à 200 e verificando em qual intervalo a taxa média de acerto
obteve um resultado desejado. Observou-se que a média de acertos estabilizou-se em
torno de 98% quando se utilizou entre 45 e 55 neurônios. Sendo assim, serão adotados 50
neurônios na camada oculta.
70

Tabela 12: Resultados do teste de desempenho para o cenário B, AR(4).


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 100.00 91.22 95.49 100.00 95.16 97.6 98.17 91.32 95.05
SB 100 94.28 94.02 100 92.95 95.94 98.16 89.07 94.92
EP 100 89.1 96.02 100 96.52 98.5 98.18 94 95.25
EF 100 91.69 95.21 100 94.73 97.22 98.17 91.53 95.08
VPP 100 85.71 94.33 100 94.28 97.16 98.16 94.64 95.79
VPN 100 95.74 96.25 100 95.68 97.83 98.18 87.85 94.21
φ 1 0.82 0.9 1 0.89 0.94 0.96 0.82 0.9

Foram utilizadas 200 épocas de treinamento para um total de 100 rodadas,


com uma separação de 70% de dados para treinamento. Os passos de aprendizagem e de
momento igual a 0,01 e 0,5 respectivamente. Para a arquitetura MLP proposta a curva
de aprendizado para uma rodada apresentou a seguinte forma apresentada no Gráfico 14.

Gráfico 14 – Curva de aprendizado da rede MLP,


cenário B.

Fonte: Elaborada pelo autor.

Utilizando os dados extraı́dos a partir do método usando o periodograma de


Welch foram obtidos os seguintes resultados em relação a taxa de acerto, apresentado na
Tabela 13:

Tabela 13: Dados estatı́sticos percentuais referentes à taxa de acertos - Cenário C.


- Média Máxima Mı́nima Mediana Desvio Padrão
Paciente 1 96.83 98.83 93.56 97.07 1.08
Paciente 5 98.47 100.00 96.23 98.38 0.81
Paciente 8 80.14 87.14 72.38 80.47 2.73

É importante verificar que os da mesma forma que verificado no Cenário A,


a taxa de acertos para o paciente 8 são baixas me relação os outros pacientes. Para os
demais pacientes verificou-se uma melhora significativa na média de acertos em relação
71

aos métodos propostos anteriormente.


Em seguida serão apresentadas as matrizes de confusão para os melhores
cenários de cada paciente. As matrizes de confusão são apresentadas na Tabela 14. De
posse dos resultados obtidos para o Cenário C é possı́vel avaliar seu desempenho através
do teste de desempenho e seus parâmetros, apresentado na Tabela 15.

Tabela 14: Matrizes de Confusão para os melhores resultados do Cenário C.


Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
102 2 106 0 66 11
0 67 0 80 16 117
FP VP FP VP FP VP

Tabela 15: Resultados do teste de desempenho para o cenário C.


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 98.83 93.56 96.83 100.00 96.23 98.47 87.14 72.38 80.14
SB 97.10 90.00 93.92 100.00 96.38 97.24 91.40 78.86 82.23
EP 100.00 96.03 98.70 100.00 96.11 99.47 80.48 63.21 76.88
EF 98.55 93.01 96.31 100.00 96.25 98.35 85.94 71.04 79.55
VPP 98.63 94.02 97.91 100.00 95.23 99.34 97.98 75.19 85.05
VPN 96.93 93.26 96.18 100.00 97.05 97.81 85.71 67.90 73.12
φ 0.93 0.86 0.93 1.00 0.92 0.97 0.72 0.42 0.58

O Cenário D apresenta os resultados referente ao uso da arquitetura MLP


com o uso de vetores de caracterı́sticas extraı́dos pelo método de estimação de parâmetros
do modelo AR(p). Da mesma forma que apresentado no Cenário B serão realizados teste
para o modelo A(2) e AR(4).
A Tabela 16 apresenta os dados estatı́sticos em relação à taxa de acertos,
novamente observa-se nesse cenário que o uso do modelo AR(4) obteve um resultado
melhor que o AR(2). A média para os pacientes 1 e 5 apresentaram resultados parecidos
em relação a taxa de acertos. Novamente foi observado uma queda na taxa de acerto do
paciente 8, fortalecendo o que já foi discutido anteriormente.

Tabela 16: Dados estatı́sticos referentes à taxa de acertos - Cenário D.


- Ordem Média Máxima Mı́nima Mediana Desvio Padrão
p=2 91.62 93.65 89.92 91.41 1.02
Paciente 1
p=4 95.90 98.13 93.65 95.89 0.97
p=2 87.40 92.34 83.06 87.50 1.78
Paciente 5
p=4 95.27 97.58 93.15 95.16 1.15
p=2 72.69 77.29 65.21 72.94 2.93
Paciente 8
p=4 74.64 81.64 66.18 74.15 2.99
72

Conforma feito em B, no Cenário D foram geradas as matrizes de confusão para


os melhores casos de cada paciente. As matrizes de confusão para o cenário D utilizando
o estimação dos parâmetros do AR(2) são apresentadas na Tabela 17 e do modelo AR(4)
são apresentadas na Tabela 18.

Tabela 17: Matrizes de Confusão para os melhores resultados do Cenário D, AR(2).


Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
181 13 128 8 77 27
4 70 11 101 20 83
FP VP FP VP FP VP

Tabela 18: Matrizes de Confusão para os melhores resultados do Cenário D, AR(4).


Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
171 4 136 5 74 18
1 92 1 106 20 95
FP VP FP VP FP VP

Tabela 19: Resultados do teste de desempenho para o cenário D, AR(2).


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 93.65 89.92 91.63 92.34 83.06 90.71 77.29 65.21 72.70
SB 84.33 87.80 84.39 92.66 78.30 83.55 75.45 60.62 77.00
EP 97.83 90.86 95.13 92.09 86.61 94.17 79.38 72.50 67.20
EF 91.08 89.33 89.76 92.37 82.46 88.86 77.41 66.56 72.10
VPP 94.59 80.89 89.42 90.18 81.37 88.52 80.58 77.7 75.19
VPN 93.30 94.41 92.66 94.12 84.24 91.73 70.03 53.70 70.41
φ 0.85 0.77 0.81 0.84 0.65 0.80 0.54 0.32 0.45

Tabela 20: Resultados do teste de desempenho para o cenário D, AR(4).


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 98.13 93.66 95.90 97.58 93.15 95.27 81.64 66.18 74.64
SB 91.00 90.10 93.47 95.50 90.27 92.73 84.07 80.00 79.03
EP 98.42 95.80 97.13 99.27 95.56 97.44 78.72 50.52 69.44
EF 97.63 92.95 95.30 97.38 95.91 95.09 81.40 62.26 74.24
VPP 98.92 92.85 94.12 99.06 94.44 96.82 82.60 64.70 73.76
VPN 97.71 94.12 96.76 96.45 92.14 94.07 80.43 69.01 72.69
φ 0.96 0.86 0.91 0.95 0.86 0.90 0.63 0.32 0.49

As tabelas 19 e 20 apresentam os resultados de desempenho do classificador


para os três paciente, novamente observou-se que para os pacientes 1 e 5 o classificador se
73

comportou melhor com o uso dos dados do modelo AR(4), porém os resultados ficaram
abaixo do realizado no cenário C. De forma similar ao cenário C ocorreu uma grande
redução de desempenho de classificação para o paciente 8.
O Cenário E apresenta a implementação do classificador utilizando uma rede
neural do tipo ELM e a extração de atributos através do método do periodograma de
Welch. Os parâmetros da arquitetura implementada utilizou 80 neurônios na camada
oculta, a matriz de pesos (definida aleatoriamente) foi multiplicada por um constante
pequena (β = 0, 05). A escolha do número de neurônios foi por tentativa e erro, variando
o número de neurônios entre 2 e 200, sendo escolhido o que manteve a melhor taxa de
acerto em uma faixa de neurônios com taxas parecidas.
A taxas de acertos para os três pacientes são apresentadas na Tabela 21 a
seguir.

Tabela 21: Dados estatı́sticos referentes à taxa de acertos - Cenário E.


- Média Máxima Mı́nima Mediana Desvio Padrão
Paciente 1 96.76 99.00 93.06 97.03 1.15
Paciente 5 98.49 100.00 95.69 98.38 0.78
Paciente 8 82.87 89.52 77.61 82.85 2.26

Novamente observa-se que os resultados para o paciente 8 se apresentaram


inferiores aos resultados dos outros paciente. Para o paciente 1 e 5 os resultados obtidos
forma parecidos com os adquiridos no Cenário C e um pouco mais satisfatórios que os do
Cenário D. Na Tabela 22 são apresentas as matrizes de confusão.

Tabela 22: Matrizes de Confusão para os melhores resultados do Cenário E.


Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
138 2 100 0 65 9
0 62 1 76 13 123
FP VP FP VP FP VP

De posse dos dados gerados em cada rodada, é possı́vel calcular os dados


para o teste de desempenho, apresentado na Tabela 23. Para esse cenário observa-se um
excelente comportamento do classificador para os paciente 1 e 5 acima dos apresentados
anteriormente. porém para o paciente 8 o teste de desempenho seguiu a tendencia do
demais exceto do Cenário B.
Por fim são apresentados os dados do Cenário F, neste cenário serão apre-
sentados dos dados da classificação utilizando o mesmo classificador anterior (ELM) com
o método de extração de atributos baseado na estimação de parâmetros de um modelo
AR(p) através da equação de Yule-Walker. Novamente neste cenário serão apresentados
resultados para os três pacientes (1, 5 e 8) utilizando a ordem do modelo 2 e 4.
74

Tabela 23: Resultados do teste de desempenho para o cenário E.


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 99.00 93.06 96.76 100.00 95.69 98.48 89.52 77.61 82.87
SB 96.87 84.93 93.71 100.00 94.82 97.31 93.18 86.40 85.60
EP 100.00 97.67 98.32 100.00 96.09 99.13 83.33 64.70 78.55
EF 98.43 91.30 96.02 100.00 95.46 98.22 88.26 75.55 82.07
VPP 100.00 95.38 96.62 100.00 91.66 98.38 90.44 78.26 86.66
VPN 98.57 91.97 96.83 100.00 97.61 98.56 87.83 76.39 77.06
φ 0.98 0.85 0.93 1.00 0.90 0.97 0.77 0.53 0.64

Os resultados estatı́sticos da taxa de acerto são apresentados a seguir na Tabela


24. Nesse cenário também se observa-se que os resultado do modelo AR(4) são melhores
que os registrados no modelo AR(2). Para os paciente 1 e 5 o classificador se apresentou
uma boa desempenho, porém assim como os outros cenários observa-se que os resultados
para o paciente 8 estão abaixo dos observados para os outros pacientes.

Tabela 24: Dados estatı́sticos referentes à taxa de acertos - Cenário F.


- Ordem Média Máxima Mı́nima Mediana Desvio Padrão
p=2 93.29 97.03 89.60 93.56 1.56
Paciente 1
p=4 96.65 99.50 93.56 96.53 1.19
p=2 91.59 96.24 87.10 91.39 1.76
Paciente 5
p=4 97.74 100.00 94.08 97.84 0.95
p=2 74.38 81.28 69.49 74.42 2.46
Paciente 8
p=4 76.89 84.01 71.23 77.16 2.55

Conforme realizados nos outros cenários, serão apresentadas as matrizes de


confusão para os melhores casos de cada paciente e qual a ordem do modelo foi utili-
zada. As matrizes com confusão com os melhores resultados aplicados ao modelo AR(2)
e AR(4) são apresentadas nas tabelas 25 e 25. Com os dados de todos os testes realizados
para o Cenário F, foi possı́vel calcular os parâmetros do teste de desempenho adotado,
sendo assim as tabelas 27 e 28 apresentam os resultados para o modelo AR(2) e AR(4)
respectivamente.

Tabela 25: Matrizes de Confusão para os melhores resultados do Cenário F, AR(2).


Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
132 3 113 5 54 16
3 64 2 66 25 124
FP VP FP VP FP VP

De posse de todos os resultados dos seis cenários propostos é necessário efetuar


um algum método de comparação. Para cada cenário foram calculados o ı́ndice de acertos e
suas estatı́sticas (média, máximo, mı́nima, média e desvio padrão) e também foi realizado
75

Tabela 26: Matrizes de Confusão para os melhores resultados do Cenário F, AR(4).


Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
140 1 122 0 67 19
0 61 0 64 16 117
FP VP FP VP FP VP

Tabela 27: Resultados do teste de desempenho para o cenário F, AR(2).


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 97.03 89.60 93.30 96.24 87.10 91.59 81.28 68.49 74.38
SB 95.55 87.50 88.76 92.95 71.83 83.06 88.57 79.56 83.09
EP 97.78 90.98 95.55 98.26 96.52 96.17 68.35 50.00 59.80
EF 96.65 89.24 92.16 95.60 84.17 89.62 78.46 64.78 71.45
VPP 95.52 86.41 90.75 97.76 92.72 92.20 83.22 73.67 77.83
VPN 97.78 91.73 94.51 95.76 84.73 91.38 77.14 59.42 67.72
φ 0.93 0.78 0.85 0.92 0.72 0.81 0.59 0.30 0.44

Tabela 28: Resultados do teste de desempenho para o cenário F, AR(4).


Paciente 1 Paciente 5 Paciente 8
-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 99.50 93.56 96.65 100.00 94.08 97.74 84.01 71.23 76.89
SB 98.38 89.55 93.97 100.00 89.04 95.66 86.02 71.01 80.56
EP 100.00 95.55 97.98 100.00 97.34 98.88 80.72 71.60 70.65
EF 99.19 92.55 95.98 100.00 93.19 97.27 83.37 71.30 75.60
VPP 100.00 90.90 95.87 100.00 95.59 97.93 87.97 80.99 82.70
VPN 99.29 94.85 97.04 100.00 93.22 97.65 77.90 59.18 67.71
φ 0.99 0.85 0.92 1.00 0.88 0.95 0.66 0.41 0.51

o calculo do dados de um teste de desempenho (acurácia, sensibilidade, especificidade,


valor preditivo positivo e negativo, eficiência e coeficiente de Matthews).
Sendo assim para compararmos os seis cenários serão utilizadas os seguintes
parâmetros: acurácia, sensibilidade, especificidade e o coeficiente de Matthews (φ). Para
cada paciente serão agregados os parâmetros em uma tabela.
Para o paciente 1, Tabela 29, os Cenários C e E apresentaram resultados
similares. O uso dos vetores de caracterı́sticas através do método de Welch rendeu os
melhores resultados. Para as duas arquiteturas de redes propostas, com uso do método
de Welch não houve diferença nos resultados. Destaca-se o resultado do classificador
linear, Cenário B, que obteve resultados próximos aos classificadores não lineares com
AR(4). O Cenário D, estimação do parâmetros do modelo AR(4), obteve resultado com
desempenho próximo aos Cenários C e E. Fica evidente que no cenários que utilizaram
o método de estimação de parâmetros para o modelo AR(4) obtiveram resultados mais
expressivos que os do modelo AR(2). As taxas de acerto de cada Cenário para o paciente
1, são apresentadas no Gráfico 15 (tipo Box Plot).
76

Tabela 29: Comparação dos cenários para o paciente 1.


Paciente 1
B D F
Cenários A C E
p=2 p=4 p=2 p=4 p=2 p=4
AC 94.04 90.80 95.49 96.83 91.63 95.90 96.76 93.30 96.65
SB 87.97 85.45 94.02 93.92 84.39 93.47 93.71 88.76 93.97
EP 97.83 94.11 96.02 98.70 95.13 97.13 98.32 95.55 97.98
φ 0.87 0.87 0.90 0.93 0.81 0.91 0.93 0.85 0.92

Gráfico 15 – Box Plot da taxa de acerto dos cenários


para o paciente 1.

Fonte: Elaborada pelo autor.

Observando os dados para o paciente 5, apresentados na Tabela 30, os classi-


ficadores que obtiveram o melhor desempenho foram dos dos Cenários C e E, obtiveram
desempenho idênticas. O cenário C e E apresentam como entrada de dados os vetores
extraı́dos através do método Welch. Nesse caso as arquiteturas de redes neurais MLP
e ELM apresentaram resultados idênticos. Observa-se também nesses resultados que o
Cenário F com o uso do modelo AR(4) apresentou uma desempenho excelente ao ser
comparada com o paciente 1 por exemplo. O classificador linear obteve um bom resul-
tado quando aplicado no modelo AR(4) no cenário B. Quando se compara os resultados
no Cenário F (ordem 4) com o Cenário D (ordem 4) nota-se uma grande diferença de
desempenho utilizando os mesmo dados. O mesmo não ocorre para a ordem 2, em que
ambos apresentam resultados parecidos e não satisfatórios. As taxas de acerto de cada
Cenário para o paciente 5, são apresentadas no Gráfico 16.
Por fim são apresentados os resultados para o paciente 8, Tabela 31. Para
esse paciente observa-se que somente o classificador linear para o modelo AR(4) obteve
77

Tabela 30: Comparação dos cenários para o paciente 5.


Paciente 5
B D F
Cenários A C E
p=2 p=4 p=2 p=4 p=2 p=4
AC 95.67 88.13 97.60 98.48 90.77 95.27 98.48 91.59 97.74
SB 93.38 74.85 95.94 97.24 83.55 92.73 97.31 83.06 95.66
EP 97.62 95.41 98.50 99.47 94.17 97.44 99.13 96.17 98.88
φ 0.91 0.73 0.94 0.97 0.80 0.90 0.97 0.81 0.95

Gráfico 16 – Box Plot da taxa de acerto dos cenários


para o paciente 5.

Fonte: Elaborada pelo autor.

os melhores resultados. Todos os demais apresentaram resultados abaixo do esperado.

Tabela 31: Comparação dos cenários para o paciente 8.


Paciente 8
B D F
Cenários A C E
p=2 p=4 p=2 p=4 p=2 p=4
AC 72.46 92.22 95.05 80.14 72.70 74.64 82.87 74.28 76.89
SB 81.11 96.06 94.92 82.23 77.00 79.03 85.60 83.09 80.56
EP 58.92 87.96 95.25 76.88 67.20 69.44 78.55 59.80 70.65
φ 0.41 0.84 0.90 0.58 0.45 0.49 0.64 0.44 0.51

A diferença entre os dados do paciente 8 e os demais é que suas crises epilépticas


são mais extensas. O paciente 1 e 5 apresentam em média de 63,14 a 111,6 segundos de
duração em cada evento de crise, porém o paciente 8 apresenta uma média de 183,8s. Para
esse paciente nenhum dos seis cenários foram satisfatórios quando comparados aos demais
paciente. Esse caso necessita de uma investigação com a utilização de outro método de
78

extração de atributos ou a utilização de outros canais. As taxas de acerto de cada Cenário


para o paciente 8, são apresentadas no Gráfico 17.

Gráfico 17 – Box Plot da taxa de acerto dos cenários


para o paciente 8.

Fonte: Elaborada pelo autor.


79

7 CONCLUSÕES E DISCUSSÕES

O estudo e a classificação dos sinais do EEG é recente, e é um campo de estudo


que se encontra em evolução. O principal desafio para se trabalhar com o sinal do EEG é a
natureza caótica do sinal. Sendo assim constatou-se a principio que não exite um método
de extração padrão de atributos desse sinal, por haver diversos estudos atuais que buscam
otimizar esse procedimento. Como apresentado no capı́tulo 3 existem diversas técnicas de
extração. Este trabalho apresentou duas implementações distintas, a primeira utilizando
o periodograma modificado de Welch, em que era calculada a densidade espectral de
potencia para cada faixa dos ritmos cerebrais e por fim realizadas médias em cada canal
do EEG. O segundo método implementado foi estimação dos parâmetros de um modelo
autorregressivo, em que se assumia que o sinal do EEG era estacionário e ergódico em
subsequências de dois segundos.
Foram implementados três classificadores, sendo um linear através do método
dos mı́nimos quadrados e dois baseados de redes neurais utilizando a arquitetura MLP
e ELM. Os testes foram realizados visando o classificador para cada paciente especı́fico.
Sendo assim cada paciente apresentou um cenário que mais se adequou ao comportamento
do sinal do EEG em sua crise epiléptica. Para o paciente 1 tivemos o melhor resultado
obtido utilizando o classificador baseado em MLP com o uso de vetores de caracterı́sticas
pelo método de estimação dos parâmetros do modelo AR(4). Já para o paciente 5 o
resultado foi melhor através do uso de dados extraı́dos da PDS, e o paciente 8 não ob-
teve nenhum resultado satisfatório em nenhum dos seis cenários, ao se comparar com a
literatura utilizada e os outros pacientes
Sendo assim conclui-se que para cada paciente deverá se investigar qual o
melhor método de extração a ser utilizado. Os classificadores baseados em redes neu-
rais obtiveram resultados semelhantes. Porém o treinamento da rede MLP utilizando
o algoritmo de aprendizado adaptativo LMS se mostrou muito lento e com alto custo
computacional quando comparada ao treinamento da arquitetura ELM.
Outra conclusão que ficou evidente nos resultados foi que o uso de um modelo
AR(4) obteve resultados melhores que o modelo AR(2), e similar ao da PSD. Como o vetor
de entrada extraı́dos através da PSD apresenta apenas 5 elementos e do modelo AR(4) 24
elementos. Em uma aplicação embarcada, por exemplo, o uso da PSD apresenta vantagem
por ocupar menos memória e diferente da estimação de parâmetros do modelo AR(p) por
não ser necessário a inversão da matriz, causada pela equação de Yule-walker. Sendo
assim o uso do método de extração através da PSD mostrou a mesma eficiência que a
estimação dos parâmetros do modelo AR(p), porém computacionalmente mais viável de
implementar.
O uso do classificador linear apresentou problemas quando a matriz dos dados
de entrada apresentou um comportamento de singularidade, mesmo quando se aplicava a
80

pseudo-inversa. Essa paciente não foi citado no trabalho, mas seus resultados utilizando
RNA foram satisfatórios. Outro fato a destacar é que quando se utilizou-se os dados de
entrada extraı́dos através da PSD, obteve um resultado mais satisfatório quando o vetor
de entrada foi normalizado, com média nula e variância unitária.
O trabalho atingiu seu objetivo em comparar os classificadores baseados em
arquiteturas de RNA (MLP e ELM) e os dois métodos de extração de features do sinal
do EEG, no problema de classificação de crises convulsivas epilépticas.
Este trabalho pode render outros desdobramentos futuros em que pode-se rea-
lizar trabalho com os mesmo dados através do uso de outros métodos de extração como a
Transformada de Wavelet, a clusterização e o uso de dinâmica não linear. Outro destaque
é o uso de classificadores baseados em SVM para a classificação de tipo de crise epilépticas,
já que o este trabalho tratou somente das crises epilépticas do tipo convulsivas. O de-
senvolvimento um algoritmo para detecção prévia de crises epilépticas em tempo real que
possa ser embarcado em um hardware e prover uma auxı́lio na vidas de várias pessoas.
Esse trabalho futuro proverá ao usuário uma estimativa de tempo de uma possı́vel crise
epiléptica através do sinal do EEG e de outros bio-sinais, o qual que será utilizado para o
epiléptico se preparar para acomodar-se ou sair de uma via e estacionar o carro em local
seguro.
81

REFERÊNCIAS

ADELI, Hojjat; GHOSH-DASTIDAR, Samanwoy. AUTOMATED EEG-BASED


DIAGNOSIS OF NEUROLOGICAL DISORDERS: Inventing the Future
of Neurology. New York: CRC Press, 2010.

AL-FAHOUM, Amjed S.; AL-FRAIHAT, Ausilah A. Methods of EEG Signal


Features Extration Using Linear Analysis in Frequency and Time-Frequency
Domais. ISRN Neuroscience, v. 20, 2014.

AN, L.; BHANU, B. Image super-resolution by extreme learning machine. 19th


IEEE international conference on image processing, 2012. pp. 2209-2212.

BOQUETE, L.; MIGUEL-JIMENEZ, J. M.; ORTEGA, S.; RODRIGUEZ-ASCATIZ,


J. M.; PEREZ-RICO, C.; BLANCO, R. Multifocal electroretinogram diagnosis of
glaucoma applying neural networks and structural pattern analysis. Expert
Systems with Applications, v. 39(1), 2012. pp. 234-238.

BORGES, Rafalel; IAROSZ, Kelly; BATISTA, Antonio; CALDAS, Ibere; BORGES,


Fernando; LAMEU, Ewandson. Sincronização de disparos em redes neuronais
com plasticidade sináptica. Revista Brasileira de Ensino de Fisica, v. 37, n. 2, 2015.

BUTCHER, J. B.; VERSTRAETEN, D.; SCHRAUWEN, B.; DAY, C. R.; HAYCOCK,


P. W. Reservoir computing and extreme learning machines for non-linear
time-series data analysis. Neural Networks, v. 38, 2012. pp. 76-89.

CHAN, A. M.; SUN, F. T.; BOTO, E. H.; WINGEIER, B. M. Automated Seizure


onset detection for accurate onset time determination in intracranial EEG.
Clinical Neurophysiology, v. 119, 2008. pp. 2687-2696.

CHEN, Y. Q.; ZHAO, Z. T.; Wang, S. Q.; CHEN, Z. Y. Extreme learning machine
based device displacement free activity recognition model. Soft Computing, v.
16(9), 2012. pp. 1617-1625.

CHIAPPA, S.; BENGIO, S. HMM and IOHMM modeling of EEG rhythms for
asynchronous BCI systems. European Symposium on Artificial Neural Networks
ESANN, 2004.

CVETKOVIC, D.; UBEYLI, E. D.; COSIC, I. Wavelet transform features


extraction from humam PPG,ECG and EEG signal responses to ELF PEMF
exposures: a pilot study. Digital Signal Processing, v. 18, n. 5, 2008. pp. 861-874.

CYBENKO, G. Approximation by superposition of sigmoidal function.


Mathematics of Control, Signal and Systems., v. 2, 1989. pp. 303-314.
82

EHLERS, Ricardo S. ANÁLISE DE SÉRIES TEMPORAIS. Departamento de


Estatı́stica, UFPR, 2009.

HAYES, Monson H. Statistical Digital Signal Processing and Modeling. USA:


John Wiley and Sons, 1996.

HAYKIN, Simon. Neural networks and learning machine. New Jersey ,Pearson
Education, Inc, 2009.

HUANG, G-B; CHEN, L. Convex incremental extreme learning machine.


Neurocomputing, v. 61, 2007. pp. 32-48.

HUANG, Gao; HUANG, Guang-Bin; SONG, Shiji; YOU, Keyou. Trends in extreme
learning machines: A review. Neural Networks, v. 70(16), 2015. pp. 3056-3062.

HUANG, Guang-Bin; ZHU, Qin-Yu; SIEW, Chee-Kheong. Extreme learning


machine: Theory and applications. Neurocomputing, v. 70, 2006. pp. 489-501.

HWANG, J.N.; KUNG, S.Y.; MAHESAN, M.; PRINCIPE, J. C. The Past, Present,
and Future of Neural Networks for Signal Processing. IEEE Signal Processing
Magazine, v. 14, n. 6, 1997. pp. 28-48.

JAHBAKHANI, P.; KODOGIANNIS, V.; REVETT, K. EEG signal classification


using wavelet feature extraction and neural networks. IEEE John Vincent
Atanasoff 2006 International Symposium on Modern Computing , 2006. pp. 52-57.

JAIN, A. K.; MAO, J.; MOHIUDDIN, K.K. Artificial neural networks: A tutorial.
Computer, v. 29, 1996. pp. 31-44.

KANASHIRO, A. L. A. N. EPILEPSIA: prevalência, caracterı́sticas


epidemiológicas e lacuna de tratamento farmacológico. . 2006. 135 f. Tese
(Faculdade de Ciências Médicas da Universidade Estadual de Campinas), 2006.

KAPER, M.; MEINICKE, P.; GROSSEKATHOEFER, U.; LINGNER, T; RITTER, H.


BCI competition 2003-data set iib: support vector machines for the p300
speller paradigm. IEEE Trans. Biomed. Eng., v. 51, 2003. pp. 1073-1076.

KASUN, L. L. C.; ZHO, H.; HUANG, G.-B.; VONG, C. M. Representational


Learning with Extreme Learning Machine for Big Data. IEEE Intelligent
Systems, v. 28, n. 6, 2013. pp. 31-34.

KEMP, Bob; VARRI, Alpo; ROSA, Agostinho C.; NIELSEN, Kim D.; GADE, John. A
simple format for exchange of digitized polygraphic recordings.
Electroencephalography and Clinical Neurophysiology, v. 82, 1992. pp. 391-393.
83

KHOTANZAD, A.; CHUNG, C. Application of multi-layer perceptron neural


networks to vision problems. Neural Computing and Applications, v. 7(3), 1998.
pp. 249-259.

LIU, G. H.; JIANG, H.; XIAO, X. H.; Zhang, D. J.; MEI, C. L.; DING, Y. H.
Determination of process variable ph in solid-state fermentation by ft-nir
spectroscopy and extreme learning machine (ELM). Spectroscopy and Spectral
Analysis, v. 32(4), 2012. pp. 970-973.

PENNY, W. D.; ROBERTS, S. J.; CURRAN, E.A.; STOKES, M. J. EEG-based


communication: a pattern recognition approach. IEEE Trans. Rehabil. Eng, v. 8,
2000. pp. 214-215.

PFURTSCHELLER, G.; NEUPER, C.S.; SCHLOGL, A.; LUGGER, K. Separability


of EEG signals recorded during right and left motor imagery using adaptive
autoregressive parameters. IEEE Trans. Rehabil. Eng, v. 6, 1998. pp. 316-355.

SANEI, Saeid; CHAMBERS, J. A. EEG Signal Processing. England: John Wiley


and Sons, 2007.

SHARMA, Sachin; KUMAR, Gaurav; MISHRA, Dipak Kumar; MOHAPATRA,


Debasis. Design and Implementation of a Variable Gain Amplifier for
Biomedical Signal Acquisition. International Journal of Advanced Research in
Computer Science and Software Engineering, v. 2(2), 2012.

SHIH, Eugene I.; SHOEB, Ali H.; GUTTAG, John V. Sensor selection for
energy-efficient ambulatory medical monitoring. Proceedings of the 7th
international conference on Mobile systems, applications, and services, 2009. pp.
347-358.

SHOEB, Ali. Applicatoin of Machine Learning to Epileptic Seizure Onset


Detectoin and Treatment. 2009.

SHOEB, Ali. CHB-MIT Scalp EEG Database. 2016. URL


https://www.physionet.org/pn6/chbmit/.

SHOEB, Ali; GUTTAG, John. Application of Machine Learning To Epileptic


Seizure Detection. Appearing in Proceedings of the 27th International Conference on
Machine Learning , Haifa, Israel, 2010.

SILVA, M. C. Selecionador de Caracterı́ticas para classificação de sinais de


EEG e construção de Interfaces Cérebro-Máquina. Tese de mestrado apresentada
a Universidade de Brası́lia Instituto de Ciências Exatas Departamento de Estatı́tica,
2012.

SIULY, Yan Li; WEN, Peng. Clustering technique-based least square support
84

vector machine for EEG signal classification. Comput. Methods Programs


Biomed., 2010.

SUBASI, A. EEG signal classification using wavelet feature extraction and a


mixture of expert mode. Expert Systems with Applications, v. 32, 2007. pp.
1084-1093.

SUBASI, A.; ERCEBELI, E. Classification of EEG signal using neural network


an logistic regression. Computer Methodis and Programs in Biomedicine, v. 78, 2005.
pp. 87-99.

TSAI, PING-HUANG; LIN, PEI-FENG; LIN, CHEN; HSIN, YUE LOONG. The
non-linear and non-stationry properties in EEG signals: probing the complex
fluctuations by Hilbert-Huang Transform. Advances in Adaptive Data Analysis,
v. 1, n. 3, 2009. pp. 461-482.

WAGAR, Tayyab; DEMETGUL, Mustafa. Thermal analysis MLP neural network


based fault diagnosis on worm gears. Measurement, v. 86, 2016. pp. 56-66.

WELCH, P. D. The Use of Fast Fourier Transform for the Estimation of


Power spectre: A Method Based on Time Averaging Over Short, Modified
Periodograms. IEEE Trans. Audio and Electroacoust, v. AU-15, 1967. pp. 70-73.

WIDROW, B.; GREENBLATT, A.; KIM, Y.; PARK, D. The No-Prop algorithm:
A new learning algorithm for multilayer neural networks. Neural Networks,
v. 37, 2013. pp. 182-188.

Y. KAYA, M. UYAR. A hybrid decision support system based on rough set


and extreme learning machine for diagnosis of hepatitis disease. Applied Soft
Computing, v. 13(8), 2013. pp. 3429-3438.

YU, Y.; CHOI, T. M.; HUI, C. L. An intelligent quick prediction algorithm with
applications in industrial control and loading problems. IEEE Transactions on
Automation Science and Engineering, v. 9(2), 2012. pp. 276-287.
85

APÊNDICE A

1. Função de extração de atributos através do periodograma de Welch.

function [mPs] = extract pWelch(arquivo,passo,t inicio,t fim,fs,n ch,chs)


%EXTRACT Summary of this function goes here
% Detailed explanation goes here
[header, recorddata] = edfread(arquivo);
[n canais n dados] = size(recorddata);
tmax=n dados/fs;
k=t inicio:passo:t fim;
for j=1:length(k)-1
ti=k(:,j);
tf=k(:,j+1);
for i=1:n ch
ch(i,:)=recorddata(chs(:,i),ti*fs:tf*fs);
[PS(:,i),f] = pwelch(ch(i,:) ,gausswin(128),[ ],256,fs);
end
PS = 10*log10(PS);
%Primeiro Metodo
delta=mean(PS(1:5,:));
DELTA(j,:)=mean(delta);
theta=mean(PS(5:9,:));
THETA(j,:)=mean(theta);
alpha=mean(PS(9:14,:));
ALPHA(j,:)=mean(alpha);
beta=mean(PS(14:27,:));
BETA(j,:)=mean(beta);
gamma=mean(PS(30:length(PS),:));
GAMMA(j,:)=mean(gamma);
end
mPs=[DELTA';THETA';ALPHA';BETA';GAMMA'];
end

2. Função de extração de atributos através da estimação dos parâmetros de um


processo AR(p).

function [mAR] = extract AR(arquivo,passo,t inicio,t fim,fs,tipo,chs)


[header, recorddata] = edfread(arquivo);
[n canais n dados] = size(recorddata);
n ch=length(chs);
tmax=n dados/fs;
k=t inicio:passo:t fim;
86

for j=1:length(k)-1
ti=k(:,j);
tf=k(:,j+1);
for i=1:n ch
ch(i,:)=recorddata(chs(:,i),ti*fs:tf*fs);
a = aryule(ch(i,:),tipo);
vetor(:,i)=a(:,2:end);
end
mAR(:,j)=reshape(vetor,1,tipo* n ch);
end

3. Implementação do classificador linear usando mı́nimos quadrados.

clear; clc;
load chb01 26 Wc.txt;
load seizuresP1 Wc.txt
load alvosP1.txt;
% Vetores (padroes) de entrada
dados=[chb01 26 Wc(:,700:1100) seizuresP1 Wc];
% Saidas desejadas correspondentes
alvos=[alvosP1(:,700:1100) ones(1,length(seizuresP1 Wc))];
alvos ori=alvos';
X=dados;
D=alvos ori';
Y=D;
Nr=100;
% Define tamanho dos conjuntos de treinamento/teste
ptrn=70; % Porcentagem usada para treino
tic
for i=1:Nr
%%%%%Embaralha dados%%%%%%
[X Y]=embaralha(X,Y);
%%%%%Separa em dados de teste e treinamento%%%%%
[Xmodel Ymodel Xtest Ytest]=separa(X,Y,ptrn);
%%%% Metodo dos Minimos Quadrados%%%%
% A=Ymodel*Xmodel'*inv(Xmodel*Xodel'); %Igual a formula
A=Ymodel*pinv(Xmodel); %Aplicando a pseudo-inversa
%%%%%% Teste do modelo%%%%%%
Ypred=A*Xtest; % Diagnosticos preditos
% Calculo dos Acertos
POK=acertos2(Ypred,Ytest);
% Guadar acertos por rodada
VetorPOK(i,:)=POK;
% Guarda Ypred e Ytest em forma matriz de vetores em iteracao
[lh col]=size(Ypred);
87

YP(:,i)=reshape(Ypred,1,lh*col);
YT(:,i)=reshape(Ytest,1,lh*col);
end
toc
matrizConfusao(YP,YT,VetorPOK,Ytest);
TESTE=teste perfo(YP,YT,VetorPOK,Ytest);
%Calcula estatisticas
MED TEST=mean(TESTE');
media=mean(VetorPOK)
maxima=max(VetorPOK)
minima=min(VetorPOK)
mediana=median(VetorPOK)
mdesvio padrao=std(VetorPOK)

4. Implementação do classificador utilizando um rede neural com arquitetura MLP.

clear; clc; close all


% Carrega DADOS
%=================
dir='C:\Users\Julio\Documents\UFC\00 TCC\Matlab codes\Date\';
A=load(strcat(dir,'chb01 26 Wc.txt'));
B=load(strcat(dir,'alvosP1B.txt'));
C=load(strcat(dir,'seizuresP1 Wc.txt'));
% Vetores (padroes) de entrada
dados=[A(:,700:1100) C];
% Saidas desejadas correspondentes
alvos=[B(:,700:1100) ones(1,length(C))];
alvos ori=alvos';
% Embaralha vetores de entrada e saidas desejadas
[LinD ColD]=size(dados);
% Realiza a normalizacao dos dados (u=0 e var=1)
Dn=normaliza(dados);
% Define tamanho dos conjuntos de treinamento/teste (hold out)
% Porcentagem de dados usada para teste
ptrn=70;
% DEFINE ARQUITETURA DA REDE
%===========================
Ne = 200; % No. de epocas de treinamento
Nr = 100; % No. de rodadas de treinamento/teste
Nh = 50; % No. de neuronios na camada oculta
No = 1; % No. de neuronios na camada de saida
eta=0.01; % Passo de aprendizagem
mom=0.5; % Fator de momento
for vNh=50:50
% LOOP de rodadas de treinamento/teste
88

for r=1:Nr,
[vNh r]
% Embaralha saidas desejadas tambem
%p/ manter correspondencia com vetor de entrada
[Dn alvos]=embaralha(Dn,alvos);
% Vetores para treinamento e saidas desejadas correspondentes
[Xmodel Ymodel Xtest Ytest]=separa(Dn,alvos,ptrn);
% Tamanho da matriz de vetores de treinamento
[lP cP]=size(Xmodel);
% Tamanho da matriz de vetores de teste
[lQ cQ]=size(Xtest);
% Inicia matrizes de pesos
[WW MM] = iniciaPesos(Nh,No,lP);
WW old=WW;
MM old = MM;
%% ETAPA DE TREINAMENTO
for t=1:Ne,
Epoca=t;
% Embaralha vetores de treinamento
[Xmodel Ymodel]=embaralha(Xmodel,Ymodel);
EQ=0;
% Inicia LOOP de epocas de treinamento
for tt=1:cP,
% ATIVACAO CAMADA OCULTA
[Yi X] = ativacao oculta(Xmodel,WW,0,tt);
% ATIVACAO CAMADA DE SAIDA
[Ok Y] = ativacao saida(Yi,MM);
% CALCULO DO ERRO
[Ek EQ]=erro(Ymodel,Ok,tt,EQ);
% CALCULO DOS GRADIENTES LOCAIS
%camada de saida
[Dk DDk]=grad saida(Ek,Ok);
% gradiente local (camada oculta)
[Di DDi] = grad oculta(Yi,MM,DDk);
% AJUSTE DOS PESOS - CAMADA DE SAIDA
[MM old MM] = ajustePesos(MM old,MM,eta,DDk,Y,mom);
% AJUSTE DOS PESOS - CAMADA OCULTA
[WW old WW] = ajustePesos(WW old,WW,eta,DDi,X,mom);
end % Fim de uma epoca
% MEDIA DO ERRO QUADRATICO P/ EPOCA
EQM(t)=EQ/cP;
end % Fim do loop de treinamento

%% ETAPA DE GENERALIZACAO %%%


EQ2=0;
OUT2=[];
for tt=1:cQ,
89

% CAMADA OCULTA
[Yi X] = ativacao oculta(Xtest,WW,0,tt);
% CAMADA DE SAIDA
[Ok Y] = ativacao saida(Yi,MM);
OUT2=[OUT2 Ok]; % Armazena saida da rede
% Gradiente local da camada de saida
% erro entre a saida desejada e a saida da rede
Ek = Ytest(:,tt) - Ok;
[Dk DDk]=grad saida(Ek,Ok); %camada de saida
% ERRO QUADRATICO GLOBAL (todos os neuronios) POR VETOR DE ENTRADA
EQ2 = EQ2 + 0.5*sum(Ek.ˆ2);
% gradiente local (camada oculta)
[Di DDi] = grad oculta(Yi,MM,DDk);
end
% MEDIA DO ERRO QUADRATICO COM REDE TREINADA (USANDO DADOS DE TREINAMENTO)
EQM2=EQ2/cQ;
% CALCULA TAXA DE ACERTO
Tx OK(r)=acertos2(OUT2,Ytest);
VetorPOK(r,:)=Tx OK(r);
% Guarda Ypred e Ytest em forma matriz de vetores em iteracao
[lh col]=size(OUT2);
YP(:,r)=reshape(OUT2,1,lh*col);
YT(:,r)=reshape(Ytest,1,lh*col);
end
matrizConfusao(YP,YT,Tx OK,Ytest);
TESTE=teste perfo(YP,YT,Tx OK,Ytest);
MED TEST=mean(TESTE');
Tx media=mean(VetorPOK) % Taxa media de acerto global
Tx max=max(VetorPOK)
Tx min=min(VetorPOK)
Tx mediana=median(VetorPOK)
Tx std=std(VetorPOK) % Desvio padrao da taxa media de acerto
% Plota Curva de Aprendizagem
%figure
%plot(EQM,'LineWidth',2)
%xlabel('Epocas');ylabel('Erro');
beep();
end

5. Implementação do classificador utilizando um rede neural com arquitetura ELM.

clear; clc; close all;


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 1: Carregar banco de dados %%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
90

dir='C:\Users\Julio\Documents\UFC\00 TCC\Matlab codes\Date\';


A=load(strcat(dir,'chb01 26 Wc.txt'));
B=load(strcat(dir,'alvosP1.txt'));
C=load(strcat(dir,'seizuresP1 Wc.txt'));
% Vetores (padroes) de entrada
dados=[A(:,600:1100) C];
% Saidas desejadas correspondentes
alvos=[B(:,600:1100) ones(1,length(C))];
alvos ori=alvos';
Dn=dados;
alvos=alvos ori';
% Embaralha vetores de entrada e saidas desejadas
[LinD ColD]=size(dados);
% Define tamanho dos conjuntos de treinamento/teste (hold out)
ptrn=70; % Porcentagem de dados usada para teste
% DEFINE ARQUITETURA DA REDE
%===========================
Nr=100;
beta=0.05;
Nh=80;

for Nhr=80:80
% LOOP de rodadas de treinamento/teste
for r=1:Nr
Dn=dados;
alvos=alvos ori';
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 2: Separar dados de treino/teste %%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% Adiciona uma linha de -1's
Dn=adiciona one(Dn);
[Dn alvos]=embaralha(Dn,alvos);
% Vetores para treinamento e saidas desejadas correspondentes
[Xmodel Ymodel Xtest Ytest]=separa(Dn,alvos,ptrn);
% Tamanho da matriz de vetores de treinamento e teste
[lP cP]=size(Xmodel);
[lQ cQ]=size(Xtest);
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 3: Escolha aleatoria dos pesos e %%
%%% limiares dos neuronios intermediarios %%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%Determinacao da matriz da projecao aleatoria
% Multiplica matriz de pesos por uma constante pequena
W=beta*rand(Nh,LinD+1);
% Parte linear da projecao na camada intermediaria
Utr=W*Xmodel;
% Parte nao-linear (aplicacao da funcao sinal)
91

%Ztr=sign(Utr);
% Parte nao-linear (aplicacao da funcao tangente hiperbolica)
Ztr=tanh(Utr);
% Adiciona linha de -1's
Ztr=adiciona one(Ztr);
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 4: Estimar os parametros do classificador (pesos e limiares) %%
%%% pelo metodo dos minimos quadrados (classificador sem camada oculta)%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% Equacao mais estavel numericamente
M=Ymodel*pinv(Ztr);
%M=Dtr*Ztr'*inv(Ztr*Ztr');
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 5: Determinar predicoes da classe dos vetores de teste %%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% Parte nao-linear (aplicacao da funcao sinal)
%Zts=sign(W*Xts);
% Parte nao-linear (aplicacao da funcao tangente hiperbolica)
Zts=tanh(W*Xtest);
% Adiciona linha de -1's
Zts=adiciona one(Zts);
%Zts=[-ones(1,cQ); Zts];
Ypred=M*Zts; % Saida como numeros reais
Ypred q=sign(Ypred); % Saida quantizada para +1 ou -1.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 6: Determinar as taxas de acerto/erro %%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
Tx OK(r)=acertos2(Ypred q,Ytest);
VetorPOK(r,:)=Tx OK(r);
% Guarda Ypred e Ytest em forma matriz de vetores em iteracao
[lh col]=size(Ypred q);
YP(:,r)=reshape(Ypred q,1,lh*col);
YT(:,r)=reshape(Ytest,1,lh*col);
end
end
matrizConfusao(YP,YT,Tx OK,Ytest);
TESTE=teste perfo(YP,YT,Tx OK,Ytest);
MED TEST=mean(TESTE');
Tx media=mean(VetorPOK) % Taxa media de acerto global
Tx max=max(VetorPOK)
Tx min=min(VetorPOK)
Tx mediana=median(VetorPOK)
Tx std=std(VetorPOK) % Desvio padrao da taxa media de acerto
92

ANEXO A – CATÁLOGO DOS DADOS ANALISADOS

Tabela 32: Crises epilépticas convulsivas detectadas para o paciente 1


Hora Tempo (s)
Paciente Arquivo Crises Duração (s)
Inicio Fim Inicio Fim
chb01 03.edf 13:43:04 14:43:04 1 2996 3036 40
chb01 04.edf 14:43:12 15:43:12 1 1467 1494 27
chb01 15.edf 01:44:44 02:44:44 1 1732 1772 40
1 chb01 16.edf 02:44:51 03:44:51 1 1015 1066 51
chb01 18.edf 04:45:06 05:45:06 1 1720 1810 90
chb01 21.edf 07:33:46 08:33:46 1 327 420 93
chb01 26.edf 12:34:22 13:13:07 1 1862 1963 101

Tabela 33: Crises epilépticas convulsivas detectadas para o paciente 5.


Hora Tempo (s)
Paciente Arquivo Crises Duração (s)
Inicio Fim Inicio Fim
chb05 00.edf 22:21:25 23:21:25 1 417 532 115
chb05 13.edf 05:22:15 06:22:15 1 1086 1196 110
5 chb05 16.edf 08:22:35 09:22:35 1 2317 2413 96
chb05 17.edf 09:22:42 10:22:42 1 2451 2571 120
chb05 22.edf 14:23:17 15:23:17 1 2348 2465 117

Tabela 34: Crises epilépticas convulsivas detectadas para o paciente 8.


Hora Tempo (s)
Paciente Arquivo Crises Duração (s)
Inicio Fim Inicio Fim
chb08 02.edf 12:28:57 13:28:57 1 2670 2841 171
chb08 05.edf 15:29:14 16:29:14 1 2856 3046 190
8 chb08 11.edf 20:37:01 21:37:01 1 2988 3122 134
chb05 13.edf 22:37:16 23:37:16 1 2417 2577 160
chb05 21.edf 06:38:16 07:38:16 1 2038 2347 264

You might also like