You are on page 1of 15

Analyse de sentiments

Etes-vous positif, neutre ou négatif ?

WWW.DIGIMIND.COM 1 Digimind  2009


Sommaire
SOMMAIRE ............................................................................................. 2 

PREAMBULE ........................................................................................... 4 

L’ANALYSE DE SENTIMENT, C’EST QUOI ? ........................................... 5 

LES LIMITES DE L'ANALYSE DE SENTIMENT AUTOMATIQUE ............. 6 

La pertinence............................................................................................................................................................ 6 

La validité................................................................................................................................................................... 6 

Les critères d’analyse ............................................................................................................................................. 6 

Le produit ............................................................................................................................................... 7 

Le contexte ............................................................................................................................................ 7 

L'influence .............................................................................................................................................. 7 

La culture ................................................................................................................................................ 7 

COMMENT UTILISER L'ANALYSE DE SENTIMENT ?.............................. 8 

Quand l’univers des textes à analyser comprend une sémantique homogène ........... 8 

Lorsque l'on traite de très gros volumes d'informations, impossible à traiter


manuellement, afin de pré-catégoriser les avis et opinions ................................................ 8 

L'ANALYSE DE SENTIMENT CHEZ LES CLIENTS DE DIGIMIND ............ 9 

Dans le secteur de l’assurance ........................................................................................................................... 9 

Dans le secteur de la grande consommation ............................................................................................. 10 

BIBLIOGRAPHIE.................................................................................... 12 

WWW.DIGIMIND.COM 2 Digimind  2009


WWW.DIGIMIND.COM 3 Digimind  2009
Préambule
L’analyse de sentiment automatisée (ou analyse de tonalité, sentiment analysis, opinion
mining) est un concept qui redevient à la mode depuis cette année. Avec l’avènement
des médias sociaux (blogs, réseaux sociaux), de nombreuses sociétés de monitoring du
web se positionnent sur ce créneau. La promesse : classer les opinions que publient les
internautes sur un forum, Facebook ou Twitter selon leur tonalité : positif, négatif,
neutre. Le curseur se déplace ainsi vers le rouge ou vers le vert. Un article du New York
Times “Mining the Web for Feelings, Not Facts”1 a enfoncé le clou l’été dernier
contribuant à étiqueter l’analyse de sentiment comme grande tendance du web 2010 au
même titre que la recherche en temps réel.

De nombreux vendeurs de solutions n’hésitent pas à sur-vendre leur technologie


d’analyse de sentiment, mettant en avant la pertinence de leurs technologies d’analyse
grammaticale, sémantique, statistiques, …

Résultat, de plus en plus de knowledge workers se demandent si ces technologies sont


fiables, et si elles pourraient leur être utile.

L’objectif de cet article est de répondre à cette question.

WWW.DIGIMIND.COM 4 Digimind  2009


L’analyse de sentiment,
c’est quoi ?
Ce concept désigne la classification de textes (articles, commentaires, billets) utilisant
des techniques de Traitement automatique du langage (analyse du langage naturel,
analyse linguistique, texte mining,…) afin de discerner le "sentiment" (la tonalité)
émanant d’un texte.

L’analyse de tonalité sur l’opinion des consommateurs, ce n’est pas nouveau : depuis
2003, des chercheurs se sont penchés sur le sujet 2. Des sociétés pionnières comme
Lexalitics travaillent sur ces techniques d’analyse de sentiment depuis déjà 6 ans.
Certaines ont déjà investi plusieurs millions de dollars sur le sujet, en collaboration avec
les équipes de recherche les plus avancées du monde.

Au final, l’analyse de sentiment, est-ce que ça marche vraiment ?

WWW.DIGIMIND.COM 5 Digimind  2009


Les limites de l'analyse de
sentiment automatique
Même ces spécialistes restent mesurés sur l’utilisation de l’Analyse de tonalité. Le
concept est pertinent dans certaines problématiques mais absolument pas dans
d’autres3. Le chemin à parcourir pour que ces technologies présentent une véritable
utilité est encore long. Pourquoi ?

La pertinence
Selon les textes analysés et les technologies employées, le taux de pertinence des
classifications en positif, négatif, neutre varie de 70% à 75%. C'est une moyenne. Cela
signifie que sur 10 informations, 2 voir 3 seront mal classifiées.

La validité
Nous avons donc 70% de données classées, mais sont-elles utiles, "actionnables" pour
l’analyse stratégique ? Que faire de centaines d’informations classées en plus, moins,
neutre ? Comment exploiter des centaines articles ou des consommateurs expriment
leurs "j'aime" ou "j'aime pas" ?

Les critères d’analyse


Résumer les opinions d’internautes à 3 catégories, c’est simplifier à l’extrême la portée
des messages. Le langage humain est plus complexe et subtile :

De nombreux textes sont ainsi classés comme Neutres car ils évoquent à la fois du positif
et du négatif. Mais le sentiment n'obéit pas à cette formule mathématique. Si un humain
analyse ce même texte, il pourra le juger, par exemple, plutôt négatif car le contexte, le
produit, les mots employés, la formulation, la nature de l’auteur font pencher davantage
le texte du côté "sombre".

Il faut pouvoir aussi gérer l’ironie, l’humour, les analogies ("j’ai autant aimé ce film que
mon service militaire"), les expressions, les dialectes (le jargon des banlieues, les
expressions adolescentes mixés de mots SMS de type Skyblogs). Les technologies
actuelles en sont encore incapables.

WWW.DIGIMIND.COM 6 Digimind  2009


L'analyse de tonalité d’un message dépend du produit, du contexte, de l’influence de
son auteur et de sa culture :

Le produit
Une personne qui s’exprime sur une automobile emploiera davantage les termes
économe, sécurisante, rapide que excellente, passionnante ou efficace. Qu’est-ce cela
implique ? Que, comme pour la veille "classique", il faut raisonner par thésaurus
spécialisés par secteurs, par produits, par communautés voir par problématiques. Une
approche générique transversale du "Sentiment analysis" est vouée à l’échec. Dans
l'idéal, il faudrait développer autant d'algorithmes que de secteurs et de problématiques
!

Le contexte
Qui véhicule le message et quand ? Un client fidèle en phase de renouvellement ou un
prospect en tout début de phase d'achat ?

L'influence
Est-ce que l'auteur qui s'exprime sur le net bénéficie d'une bonne visibilité donc d'une
potentielle amplification de son avis ou n'est-il tout simplement lu que par ses frères et
sœurs. 10 avis négatifs postés par des leaders d'opinions sur des sites à forte audience
pèsent plus lourd que 1000 commentaires dispersés sur des blogs quasi-invisible. Ce qui
importe, c'est d'abord l'effet potentiel du message. S'il est avéré, le contenu mérite d'être
analysé.

La culture
Au-delà des différences de signification de langage liés aux pays ("quite" n'a pas la
même signification aux USA et aux Royaume-Uni4), l'analyse de tonalité idéale devrait
pouvoir tenir compte des modes de vies. Ainsi, le site web TripAdvisor5 compile de
nombreux avis de vacanciers sur leurs séjours hôteliers : un américain donnera un avis
négatif sur un hôtel à cause de la mauvaise qualité de la climatisation et de la petite
taille de la salle de bain. Mais ce qui comptera pour l'italien, c'est bien davantage la
restauration et la propreté de la plage.

Au final, une majorité des spécialistes sur la question (éditeur de logiciel, consultant,
responsable de communication, chercheur, sociologue..) s’accordent à dire que l'analyse
de sentiment est une technique à surveiller pour l’avenir, mais que le point de vue
humain reste irremplaçable.6

WWW.DIGIMIND.COM 7 Digimind  2009


Comment utiliser
l'analyse de sentiment ?
L'analyse de sentiment peut-être rapprochée, en terme de concept, des technologies de
catégorisation automatique. Très à la mode dans les années 90, celles-ci ne sont
finalement efficaces que dans certains cas de figure finalement assez rares, à l'instar de
l'analyse de sentiment :

Quand l’univers des textes à analyser comprend une sémantique


homogène
C'est souvent le cas dans le domaine de la finance. Le spectre de vocabulaire employé
par les journalistes et analystes est restreint : "à la baisse", "en progression", "net
recul"…On peut ainsi analyser de très grands volumes d'articles afin de dégager des
tendances globales. Efficace car on se soucie peu ici de la tonalité de chaque article mais
on s'intéresse au contraire à un ensemble d'orientations qui impacteront ou non un
marché.

Lorsque l'on traite de très gros volumes d'informations, impossible à traiter


manuellement, afin de pré-catégoriser les avis et opinions
Mais dans tous les cas, la relecture humaine sera nécessaire pour éliminer les erreurs et
apporter une dimension qualitative à la catégorisation.
Le travail nécessaire pour l'analyse de sentiment est d'ailleurs très analogue à l'approche
d'une étude de marché : une phase d'étude documentaire (l'univers sémantique), une
phase d'étude quantitative (avec toutes les limites liées aux échelles de mesures,
restrictives) et une analyse qualitative, centré sur le sens à donner en fonction de votre
problématique.

WWW.DIGIMIND.COM 8 Digimind  2009


L'analyse de sentiment
chez les clients de
Digimind
Depuis 2007, nos clients utilisent les outils d'analyses temps réel de Digimind pour
effectuer de l'analyse de sentiment et d'opinion, dans le domaine de l'e-réputation
notamment7.
Ce qui les intéresse: c'est moins de savoir si une information est positive, négative ou
neutre mais de connaître l'image associée et le positionnement perçu d'un produit,
service ou personne: est-ce que l'on retrouve les valeurs que mon entreprise veut
communiquer ? Mon produit est-il bien compris et accueilli?

Comment s'y prennent-ils afin d'éviter les écueils énoncés précédemment ? 2 exemples :

Dans le secteur de l’assurance


Problématique : Mesurer la satisfaction des clients pour un type de contrat afin de
l’améliorer.
Solution : Produire un tableau de bord contenant des analyses graphiques afin de
nourrir la réflexion stratégique pour améliorer l’offre.
Etape 1 : Capitalisation des retours clients. Le client valide les retours des clients relatifs à
un contrat en classant chaque information selon différents axes : critères d’évaluation
(Reconnaissance, Réactivité, Engagement, Expertise, etc.) et tonalité (Positive ou
négative)
Etape 2 : Analyse des données et production du livrable
Notre client utilise notamment les graphes d'analyse matricielle pour croiser les retours
clients selon les critères d'évaluation et la tonalité mesurée. Exemple : les retours portant
sur la reconnaissance sont plutôt positifs alors que ceux relatifs à la réactivité sont plutôt
négatifs.
On voit ici que le veilleur intègre des référentiels sémantiques liés à ses produits
(reconnaissance, transparence) associés à des critères de tonalité. Les critères de tonalité
ne sont pas utilisés seuls mais dans un contexte métier. L'analyse matricielle permet
finalement d'expliquer visuellement les opinions des consommateurs.

WWW.DIGIMIND.COM 9 Digimind  2009


Dans le secteur de la grande consommation
Problématique: Notre client veut surveiller ce qui se dit sur ses produits et les images
associées. Il s'intéresse essentiellement aux forums et à certains blogs, là où les
conversations sont les plus révélatrices. Mais des milliers de conversation sont produites
chaque jour.
Solution : monitorer les fils de discussions des forums et les blogs puis les analyser selon
des valeurs particulièrement discriminantes.
Il a construit avec Digimind un thésaurus volontairement périmétré ne comportant que
des locutions très "marquées" (arnaque, incompétence, sublime, "la classe!") et employé
fréquemment par le cœur de cible de ses produit. Ce référentiel comprend à la fois des
noms, des expressions, des verbes.
Un certain nombre de messages représentatifs sont extraits chaque jour (par produit et
par services) et sont analysés ensuite graphiquement pour construire des critères par
type de conversation : agresseur, fans, captifs, polémiques.
On analyse ici les opinions sur un panel de messages "saillants", permettant de dessiner
l'évolution de tendances, sur les nouveaux produits notamment. Par ailleurs, l'extraction
automatique des concepts les plus liés à la marque permet d'enrichir constamment le
vocabulaire.

L'utilisation des outils d'analyse automatique se fait toujours en complément d'une


analyse humaine (à postériori ou à priori), permettant ainsi de réunir des informations
utiles à la réflexion stratégique. L'intégration de technologies d'automatisation n'a de
sens que si l'on gagne du temps et de la pertinence, donc de l'efficacité. Aussi, à l'instar
de la catégorisation automatique8, Digimind n'intègre des technologies d'analyses de
sentiment que dans la mesure où il y a un véritable gain pour ses clients.

Vous pouvez vous faire votre propre…opinion avec les articles mentionnés ci-dessous.

WWW.DIGIMIND.COM 10 Digimind  2009


Bibliographie
1. http://www.nytimes.com/2009/08/24/technology/internet/24emotion.html?_r=4&p
agewanted=all
2. http://www.cs.uic.edu/~liub/publications/kdd04-revSummary.pdf
3. http://www.lexalytics.com/lexablog/bid/26696/Basic-understanding-of-sentiment
4. http://blogs.ft.com/donsullblog/2009/08/25/summer-reading/#more-2311
5. http://www.tripadvisor.fr/
6. http://commetrics.com/articles/fails-validity-test/
7. Digimind a lancé le concept d'e-réputation en France dès 2007
http://www.digimind.fr/actu/presse/405-e-reputation-quand-la-toile-ne-se-
contente-plus-d%E2%80%99ecouter.htm
8. http://www.digimind.fr/produits/technologies-2/digimind-prism/content-process-
system/digimind-categorizer

Voir aussi :

http://liquidnotflat.blogspot.com/2009/09/sentiment-analysis-crap-in-social-media.html

WWW.DIGIMIND.COM 11 Digimind  2009


Dans la même collection
> A télécharger gratuitement sur http://www.digimind.fr/actus/publications

Etudes

• "Comparatif des logiciels de veille du marché : un guide de benchmark"

• "Baromètre des pratiques de veille des grandes entreprises françaises"

• "Baromètre des pratiques de veille des organisations suisses"

White Papers

• "Les Forums web pour la veille: Découvrez la valeur des conversations du net"
Christophe Asselin, Expert Internet, Digimind

• "e-réputation: Ecoutez et analysez le buzz digital"


Christophe Asselin, Expert Internet, Digimind

• "Le Web 2.0 pour la veille et la recherche d'information : Exploitez les ressources du
Web Social"
Christophe Asselin, Expert Internet, Digimind

• "Blogs et RSS, des outils pour la veille stratégique"


Christophe Asselin, Expert Internet, Digimind

• "Découvrir et exploiter le Web Invisible pour la veille stratégique"


Christophe Asselin, Expert Internet, Digimind

• "Evaluer le Retour sur Investissement d'un logiciel de veille"


Edouard Fillias, Consultant Veille Stratégique, Digimind

• "Catégorisation automatique de textes"


Mohammed El Haddar, Directeur R&D, Digimind

• "Extraction automatisée d’actualités on line pour la veille stratégique"


Mohammed El Haddar, Directeur R&D, Digimind

WWW.DIGIMIND.COM 12 Digimind  2009


Red Books
• Consumer Insight

• Moyens de paiement

• Biotechnologie

• Nanotechnologie

• Nutrition

• RFID

• Risk management

• Contrefaçon

Infographies
• Typologie des sources Consumer Insight

• Cartographie des types de veille

• Cartographie des sources internet dans l’Assurance

• Cartographie des enjeux d’un déploiement d’un projet de veille

• Cartographie des sources Pharmacie-Santé sur internet

• Cartographie des risques majeurs

• Qu’est-ce que le Web Invisible ?

> A télécharger gratuitement sur http://www.digimind.fr/actus/publications

WWW.DIGIMIND.COM 13 Digimind  2009


WWW.DIGIMIND.COM 14 Digimind  2009

You might also like