Professional Documents
Culture Documents
Abstract— There are an increasing number of studies in the Reações Fisiológicas e Expressões Motoras [8]; e trazem à
area of Human-Computer Interaction which bear witness to the tona a discussão sobre o que as emoções são e o que precisa
importance of taking note of the emotional factors involved when ser estudado quando se quer determinar o seu significado [8].
interacting with computing systems. Once the emotions of the users De maneira mais específica, a utilização da fala dos usuários
are known, it is possible for artificial agents to influence these
feelings with a view to interacting with them and stimulating their para identificar as emoções permite que tal informação possa
routine or specific activities on a day-to-day basis. However, ser obtida sem uma ação explícita do usuário e sem o uso de
providing computing systems with the capacity to recognize and equipamentos específicos ou intrusivos. Além disso, no
interpret the emotion of their users, is one of the great challenges in âmbito tecnológico, é comum que equipamentos
the area of Human-Computer Interaction. For this reason, this computacionais (por exemplo, tablets, desktops, notebooks e
article adopts an approach based on the Ensemble of Classification smartphones) possuam microfones, o que permite uma
which is concerned with identifying and classifying emotions on the
basis of the motor expression of the users (in this case the voice). interação em tempo real.
When this procedure is compared with the classical approaches Devido à natureza do problema de identificar emoções,
adopted in the literature, the results show that, as well as achieving técnicas de Aprendizado de Máquina (AM) têm sido
a high degree of accuracy, the proposed model maintains a good amplamente investigadas nesse contexto [1, 2, 6, 9, 10, 11], as
level of consistency when identifying the emotions of the users. quais são tratadas como um problema de classificação
Keywords— Human-Computer Interaction (HCI), Emotion
comumente supervisionado. No entanto, parte dos estudos
Classification, Ensemble of Classification, Voice. encontrados na literatura descrevem o uso de classificadores
isolados para resolver esse problema [1, 2, 9], apesar de
I. INTRODUÇÃO alguns trabalhos abordarem, com resultados promissores, a
utilização do conceito de Comitê de Classificação, do inglês
E MOÇÃO é uma característica fundamental do ser humano
que lhe permite desfrutar de experiências e o influenciar
em suas decisões diárias. Esse aspecto é importante na
Ensemble of Classification (EC) para classificar emoções [6,
10, 11]. Adicionalmente, a utilização de ECs relata bons
resultados em outras áreas, como em reconhecimento de
interação entre as pessoas [1] e pode ser utilizado para intervir
padrões [13], classificação de caracteres [12] ou na
na realização de uma tarefa, ou até mesmo para tomar
identificação de problemas pulmonares [26] ou mesmo de
decisões em prol do usuário; por exemplo, sugerir um gênero
câncer, na área médica [27].
de filme para aliviar o estresse com base na sua atual emoção
Com o intuito de avançar no estado da arte, este artigo
[2]. As características emocionais têm sido estudadas há muito
propõe um modelo capaz de identificar e classificar as
tempo na área da psicologia [3]. Convém salientar, no entanto,
emoções dos usuários baseado em suas Expressões Motoras,
que somente nos últimos anos houve um aumento significativo
mais especificamente em sua fala (voz). O modelo proposto é
de pesquisas sobre o tema na área de Computação Afetiva [1,
baseado em features Mel Frequency Cepstral Coefficient
4, 5, 6]. Uma das divisões básicas da Computação Afetiva é a
(MFCC) e em Log Energy (logaritmo da energia do sinal),
Interação Humano-Computador (IHC) [7], a qual estuda como
para interpretar a fala do usuário, bem como em um EC, para
os dispositivos computacionais podem reconhecer, modelar e
classificar as emoções. Assim, é possível realizar uma análise
responder às emoções humanas e, dessa forma, como podem
da fala a fim de aplicar a computação afetiva. Para validar o
expressá-las mediante uma interface/interação computacional
nosso modelo, realizou-se uma análise comparativa com
[2]. Assim, sistemas capazes de reconhecer as emoções do
abordagens clássicas da literatura e os nossos resultados
usuário, interpretando-as e reagindo de modo inteligente e
mostraram ser promissores. O nosso modelo possui três
sensível, poderiam atender mais adequadamente aos requisitos
contribuições chaves: (i) debater e encorajar estudos sobre a
de interação dos indivíduos.
identificação de emoções, bem como a interação dos usuários
Emoções são complexas, difíceis de identificar e de
por dispositivos computacionais de maneira não intrusiva; (ii)
mensurar. Estão ligadas à reação de vários componentes, que
abordar o estudo da fala para a atribuição de emoção; e (iii)
podem ser sintetizados em: Avaliações Cognitivas,
avaliar a abordagem baseada em ECs para a classificação de
Sentimentos Subjetivos, Tendências Comportamentais,
emoções de indivíduos.
Este artigo está organizado da seguinte forma: a Seção II
L. Y. Mano, Universidade de São Paulo (USP), São Carlos, São Paulo,
Brasil, leandroyukiomano@usp.br aborda conceitos prévios importantes para o entendimento do
E. Vasconcelos, Universidade de São Paulo, São Paulo, São Paulo, Brasil, uso da fala para o artigo proposto. Na Seção III, destacamos
eduardovasconcelos@usp.br os trabalhos relacionados ao contexto deste artigo. Após essa
J. Ueyama, Universidade de São Paulo, São Paulo, São Paulo, Brasil,
joueyama@icmc.usp.br troca de opiniões, na Seção IV, descrevemos como é realizada
a interpretação da fala e ,na Seção V, propomos a utilização
4776 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 12, DECEMBER 2016
(MLP), realizam a classificação da fala do usuário. Javidi et para identificar as emoções com base na fala do usuário.
al. (2013) também utilizam as features: energia, potência, taxa Nesse sentido, é possível que dispositivos computacionais
de cruzamento do zero, tom da fala e coeficientes cepstrais de possam reconhecer, modelar e responder às emoções humanas
frequência em mel para a identificação da emoção. Os autores e expressá-las mediante uma interface/interação
realizaram experimentos com algoritmos de AM – Rede computacional.
Neural, Support Vector Machine (SVM) e Árvore de Decisão
– para a construção de um modelo que classifica a emoção do IV. INTERPRETAÇÃO DA FALA
usuário de acordo com a sua fala. A Tabela I apresenta uma A diferença entre sinais de voz que expressam diferentes
síntese das pesquisas detalhadas anteriormente. Estão descritas emoções está, sobretudo, na forma como o espectro de energia
as pesquisas, o tipo de componente baseado na Teoria do sinal se comporta. Por exemplo, emoções cuja expressão
Componencial das Emoções, os tipos de sensores utilizados vocal é caracterizada por exaltações e brados tendem a
para a captura e os algoritmos utilizados para a análise e a carregar mais energia do que emoções cuja expressão oral é
classificação da experiência emocional do usuário. mais branda. Assim, ao compararmos o espectro de
frequências de uma frase pronunciada de maneira negativa ao
TABELA I
SÍNTESE DAS PESQUISAS IDENTIFICADAS NA LITERATURA
espectro da mesma frase pronunciada de maneira positiva
notaremos diferenças na distribuição espectral de energia,
Tipo de Técnica de como ilustra a Fig. 2.
Trabalhos Tipo de Sensor
Componente Classificação
Árvore de
Atividade eletrodérmica,
Decisão,
Reações frequência e batimento
[5] Lógica Fuzzy;
Fisiológicas cardíaco, temperatura da
SVM e Redes
pele e do ar
Bayesianas
Atividade eletrodérmica, Regras de
Reações eletroencefalograma, decisão, kNN
[1]
Fisiológicas eletromiografia facial, e Árvore de Figura 2. Espectrogramas da frase “Gli operari si alzano presto” pronunciada
frequência respiratória Decomposição de maneira negativa e de maneira positiva.
Expressões
Atividade eletrodérmica, Regressão
Motoras e
[4]
Reações
reconhecimento facial, Linear e Rede Segundo Furui (2000), uma elocução humana é produto da
frequência cardíaca Neural filtragem realizada pelo trato vocal sobre a onda sonora
Fisiológicas
Expressões Comitê de resultante da interação do fluxo de ar vindo dos pulmões com
[6] Face
Motoras Classificação as cordas vocais. A maneira como uma frase é pronunciada
Expressões pode levar a inúmeras interpretações por parte do ouvinte.
[20] Fala MLP
Motoras
Rede Neural, Seres humanos são capazes de atribuir conotações emocionais
Expressões a elocuções de maneira automática. Do ponto de vista
[21] Fala SVM e Árvore
Motoras
de Decisão auditivo, as múltiplas interpretações possíveis são fruto de
Expressões Comitê de como a energia do sinal de fala está distribuída sobre o
Proposta Fala
Motoras Classificação
espectro de frequências audíveis do sinal, em outras palavras,
da densidade espectral de energia. Features associadas à
É possível perceber, pela Tabela I, que não há um consenso densidade espectral de energia de sinais sonoros são o
referente aos tipos de componente, de sensor e à técnica de “padrão” em aplicações de reconhecimento de voz, de
classificação utilizados quando se trata de identificar as instrumentos e de estilos musicais. De acordo com Jurafsky et
emoções dos usuários. Os trabalhos desenvolvidos por Zhou et al. (2009), MFCCs são as features mais comuns em aplicações
al. (2011) e Peter e Urban (2012) trazem a utilização de que requerem o processamento da fala. Esse tipo de feature é
sensores relacionados às Reações Fisiológicas, fato que pode baseado em cepstro e inspirado na maneira como o ouvido
comprometer a riqueza de detalhes de uma análise emocional. humano responde a estímulos sonoros, uma vez que as
Por outro lado, o trabalho proposto por Mano et al. (2015) frequências do espectro estão em escala mel, não linear, com
utiliza sensores relacionados às Expressões Motoras, mais gradação que procura imitar a percepção auditiva humana.
especificamente à face do usuário. Ainda, Bailenson et al. Neste trabalho 12 MFCCs, features log energy, delta e
(2008) propõem a utilização tanto de sensores relacionados às aceleração foram extraídos para formarem um conjunto de 39
Reações Fisiológicas quanto às Expressões Motoras. No features. O coeficiente log energy é obtido a partir do
entanto, o componente da face possui um peso menor que a cômputo do logaritmo da energia (total) do fragmento de sinal
fala quando se trata de classificação de emoção [28]. Nesse digital x[n] (ver Equação 1).
sentido, os trabalhos propostos por Khanchandani et al. (2009)
e Javidi et al. (2013) analisam a fala do usuário, porém não
abordam a utilização de ECs para a classificação de emoções
baseadas em voz. Com objetivo de abordar essa lacuna na
literatura e de amenizar os erros cometidos por uma única
técnica na classificação, propomos e avaliamos um Comitê Diferentes representações vocais (alegria, aversão, medo,
4778 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 12, DECEMBER 2016
neutro, raiva, surpresa e tristeza) são propostas para a erros de um classificador possam ser corrigidos pela opinião
identificação e a classificação das emoções capazes de de todos os outros componentes [10, 17]. A partir dessa
codificar a configuração vocal de um indivíduo. A ferramenta hipótese, a Fig. 4 apresenta a estrutura do módulo para a
utilizada para obter informações vocais (features) é o classificação baseada em fala no processo de combinação de
openSMILE [25]. Ele funciona baseado em scripts de um EC. Além disso, combinamos técnicas de classificação
configuração da extração que se deseja executar. A ferramenta cada vez mais aplicadas à análise de respostas emocionais
recebe como argumentos o caminho do script de extração a ser para o desenvolvimento do EC, tais como: MLP, kNN e SVM
utilizado e o caminho do arquivo de áudio do qual são [1, 6, 20].
extraídas as features descritas. O pipe de extração do
openSMILE é apresentado na Fig. 3. O processo de extração
de MFCCs (representado por Melspec) e de Log Energy
(representado por LOGE) são idênticos até o janelamento do
sinal e se divergem em seguida. Os processos convergem
novamente para extrair os coeficientes delta e aceleração.
VII. CONCLUSÃO [10] Schuller, Björn, et al. "Speaker independent speech emotion
recognition by ensemble classification." 2005 IEEE International
Na área de IHC inúmeros são os métodos, técnicas e Conference on Multimedia and Expo. IEEE, 2005.
instrumentos que apoiam a avaliação de respostas emocionais, [11] Mano, Leandro Y., et al. "Exploiting IoT technologies for enhancing
Health Smart Homes through patient identification and emotion
visto a oportunidade de sistemas computacionais reagirem ao recognition."Computer Communications (2016).
estado emocional de um indivíduo. Diante disso, este artigo [12] Canuto, Anne Magaly de Paula. Combining neural networks and fuzzy
propõe um modelo utilizando o conceito de EC para a logic for applications in character recognition. Diss. University of Kent
at Canterbury, 2001.
classificação da emoção baseada na fala do usuário. Assim, o [13] Duda, Richard O., Peter E. Hart, and David G. Stork. Pattern
erro cometido por um classificador é corrigido pela opinião de classification. John Wiley & Sons, 2012.
todos os outros componentes que compõem o EC. Os [14] Fontaine, Johnny RJ, et al. "The world of emotions is not two-
resultados mostram que o Comitê proposto apresenta baixa dimensional."Psychological science 18.12 (2007): 1050-1057.
[15] Mahlke, Sascha, and Michael Minge. "Consideration of multiple
dispersão em sua replicação e a mediana da acurácia é components of emotions in human-technology interaction." Affect and
superior aos apresentados pelos respectivos algoritmos que emotion in human-computer interaction. Springer Berlin Heidelberg,
constituem o modelo proposto (usados individualmente) para 2008. 51-62.
[16] Canuto, Anne Magaly de Paula. Combining neural networks and fuzzy
a classificação da emoção. logic for applications in character recognition. Diss. University of Kent
Ressalta-se que, apesar dos bons resultados obtidos, at Canterbury, 2001.
acreditamos ser possível aumentar a acurácia de classificação [17] Duda, Richard O., Peter E. Hart, and David G. Stork. Pattern
classification. John Wiley & Sons, 2012.
da nossa proposta. Iremos, então, investigar como trabalhos [18] Bouckaert, Remco R., et al. "WEKA Manual for Version 3-7-
futuros: (i) a exploração de outras abordagens para a 8." Hamilton, New Zealand (2013).
identificação da emoção, por exemplo, o Componente de [19] Costantini, Giovanni, et al. "EMOVO Corpus: an Italian Emotional
Speech Database." LREC. 2014.
Tendências Comportamentais – Rede Social; (ii) a exploração [20] Khanchandani, K. B., and Moiz A. Hussain. "Emotion recognition
dos resultados de múltiplos sensores para a identificação da using multilayer perceptron and generalized feed forward neural
emoção, e; (iii) a investigação de abordagens para otimizar os network." Journal of Scientific and Industrial Research 68.5 (2009):
367.
valores das ponderações dos classificadores no EC. [21] Javidi, Mohammad Masoud, and Ebrahim Fazlizadeh Roshan. "Speech
emotion recognition by using combinations of C5. 0, neural network
AGRADECIMIENTOS (NN), and support vector machines (SVM) classification methods." J.
Leandro Mano e Jó Ueyama gostaria de agradecer à Math. Comput. Sci 6 (2013): 191-200.
[22] Ekman, Paul. "Cross-cultural studies of facial expression." Darwin and
FAPESP (Fundação de Amparo à Pesquisa do Estado de São facial expression: A century of research in review (1973): 169-222.
Paulo), Processos 2014/10685-3 e 2015/21642-6, 2016/14267- [23] Furui, Sadaoki. "Digital Speech Processing, Synthesis, and Recognition
7 pelo auxílio financeiro em sua pesquisa, assim como à (Revised and Expanded)." Digital Speech Processing, Synthesis, and
Recognition (Second Edition, Revised and Expanded) (2000).
Office of Naval Research Global pela doação financeira para a [24] Jurafsky, D.; Martin, J. H. Speech and language processing: an
pesquisa do docente. introduction to natural language processing, computational linguistics,
and speech recognition, 2 ed., Pearson Education, 2009. pp 295–302.
ISBN 978-0-13-187321-6.
REFERÊNCIAS [25] Eyben, Florian, et al. "Recent developments in openSMILE, the
[1] Zhou, Feng, et al. "Affect prediction from physiological measures via munich open-source multimedia feature extractor." Proceedings of the
visual stimuli." Inter. Journal of Human-Computer Studies 69.12 21st ACM international conference on Multimedia. ACM, 2013.
(2011): 801-819. [26] Ciompi, Francesco, et al. "Automatic classification of pulmonary peri-
[2] Gonçalves, Vinícius P., et al. "Emoções na interação humano- fissural nodules in computed tomography using an ensemble of 2D
computador: um estudo considerando sensores." Proceedings of the views and a convolutional neural network out-of-the-box." Medical
12th Brazilian Symposium on Human Factors in Computing Systems. image analysis 26.1 (2015): 195-202.
Brazilian Computer Society, 2013. [27] Cai, Zhihua, et al. "Classification of lung cancer using ensemble-based
[3] Lichtenstein, Antje, et al. "Comparing two emotion models for deriving feature selection and machine learning methods." Molecular
affective states from physiological data." Affect and Emotion in BioSystems11.3 (2015): 791-800.
Human-Computer Interaction. Springer Berlin Heidelberg, 2008. 35- [28] Gonçalves, Vinícius P., et al. "Enhancing intelligence in multimodal
50. emotion assessments." Applied Intelligence (2016): 1-17.
[4] Bailenson, Jeremy N., et al. "Real-time classification of evoked
emotions using facial feature tracking and physiological Leandro Yukio Mano atualmente frequenta o curso de
responses." International journal of human-computer studies 66.5 Doutorado no Programa de Pós-Graduação em Ciências de
(2008): 303-317. Computação e Matemática Computacional do ICMC - USP.
[5] Peter, Christian, and Bodo Urban. "Emotion in human-computer Atuando principalmente nos seguintes temas: Internet das
interaction."Expanding the Frontiers of Visual Analytics and Coisas (IoT), Interação Humano-Computador (IHC), Heath
Visualization. Springer London, 2012. 239-262. Smart Home (HSH), Abordagens Flexíveis e Monitoramento.
[6] Mano, Leandro Y., et al. "Exploiting the Use of Ensemble Classifiers to
Enhance the Precision of User's Emotion Classification." Proceedings Eduardo Santos Medeiros de Vasconcelos atualmente
of the 16th International Conference on Engineering Applications of frequenta o curso de Engenharia de Computação da
Neural Networks (INNS). ACM, 2015. Universidade de São Paulo em São Carlos (EESC e ICMC).
[7] Picard, Rosalind W. "What does it mean for a computer to “have” Seus principais interesses são Inteligência Artificial,
emotions."Emotions in humans and artifacts (2003): 213-235. Neurocomputação, Desenvolvimento de Software e
Processamento Digital de Sinais.
[8] Scherer, Klaus R. "What are emotions? And how can they be
measured?."Social science information 44.4 (2005): 695-729.
Jó Ueyama é Professor Associado no Instituto de Ciências
[9] Ramakrishnan, S.; El Emary, Ibrahiem MM. Speech emotion Matemáticas e de Computação da Universidade de São Paulo
recognition approaches in human computer (ICMC/USP). Jó obteve a sua Livre-docência no ICMC/USP
interaction. Telecommunication Systems, v. 52, n. 3, p. 1467-1478, em junho de 2013 e o seu doutorado na Lancaster University
2013. em Agosto de 2006. Em janeiro de 2016 retornou de sua
licença Sabático na University Southern California, EUA.