You are on page 1of 11

Statistique & Analyse des donnes

Des donnes linformation Aide la Dcision

- Notes

sur

SPSS -

propos de SPSS :
diteur spcialis dans l'analyse prdictive, le groupe SPSS (Nasdaq : SPSS) a ralis un chiffre daffaires de 209 millions de dollars au 31/12/2002. Il est prsent dans 80 pays et emploie plus de 1 300 personnes. Bnficiant de plus de 35 ans d'expertise sur le march des solutions analytiques, SPSS a enrichi son offre grce l'acquisition de technologies innovantes (DataDistilleries, LexiQuest, ShowCase, NetGenesis). Aujourd'hui, SPSS est fortement positionn sur le march de l'analyse prdictive (data mining, text mining, Web mining, collecte de donnes et marketing prdictif) et de l'analyse dcisionnelle (datawarehouse, reporting, analyse, simulation et e-Metrics). La richesse et la complmentarit des solutions analytiques de SPSS permettent aux entreprises dintgrer et danalyser toutes les donnes, structures (on et off-line) ou nonstructures (textuelles) afin doptimiser leurs processus dcisionnels et la gestion de la relation client.

SPSS est le leader des logiciels statistiques sur petites formes type windows ou MacIntosh. Sa gamme de produits est trs tendue et galement trs dense. Il est devenu un outil indispensable dans des secteurs dactivit trs varis (Finance, Marketing et analyse des ventes, Assurances, Banques, secteur industriel, Production, Distribution, Communication, valuation de projets, etc .)

Le logiciel

SPSS

est un produit extrmement complet qui ncessite une phase

dapprentissage certaine pour une bonne connaissance de ses potentialits. Traditionnellement positionn sur le terrain de la statistique, SPSS volue depuis quelques annes sur le segment de l'analyse prdictive (Datamining), mthode qui vise anticiper un comportement futur en tirant partie d'enseignements passs. Son offre s'articule autour d'une bibliothque de modules verticaux (finance, grande distribution, sant et administrations publiques) mais aussi de domaines transversaux de l'entreprise - tels que le suivi des actions et campagnes marketing.

Presse franaise

Notes sur SPSS


Fentres SPSS : 1) Un fichier ddition des donnes (data.sav) : fentre donnes 2) Un fichier de commandes (syntax.sps) : fentre syntaxe 3) Un fichier de rsultats (outpout.spo) : fentre rsultats (il y a deux types) 4) Un fichier Script pour personnaliser lenvironnement de travail : fentre script

Phase A : Conceptualisation des donnes


1. Identification des besoins dinformation 2. laboration du codeur de donnes (dictionnaire des variables)

Phase B : Prparation des donnes


3. Saisie des donnes, vrifications. 4. Tri et slections,

5 5. Transformations, calculs de variables et recodage Phase C : Analyse des donnes


1. Exploration des donnes 2. Analyse descriptive des donnes (Tri plat et tris croiss) 3. Analyse infrentielle des donnes (tests dhomognit, dadquation, de comparaison ) 4. Analyses avances.

Phase A : Conceptualisation des donnes


1. Identification des besoins dinformation 2. laboration du codeur de donnes (dictionnaire des variables)

Prparations dune base de donnes SPSS : dclaration et dfinition dune


variable : Il existe deux affichages possibles dans la fentre des donnes :

Affichage des variables : pour crer et dclarer les variables du fichier. Affichage des donnes : pour la saisie et la modification des donnes. Laffichage des donnes peut tre fait en mode tiquettes ou valeurs.

a) Nom de la variable. (Moins de 8 caractres)


Une variable est reprsente par un nom (maximum de 8 caractres) et peut prendre plusieurs valeurs (donnes). Une variable reprsente gnralement une information unique. On peut affecter chaque nom de variable une tiquette de variable.

6 b) Type de la variable :
- numrique : largeur et nombre de dcimales.

- chane : nombre de caractres. - Date

Exemples : Entier : -1, 10, 22405 Dcimal : 1,23 ou 0.5 Scientifique : 0.2E-3 Monnaie : $10.34 Chane : o, n, femme Date : 31/10/00, Feb 10, 1984

c) Etiquette de variable (tiquette)

d) Etiquettes des valeurs (Valeur)

e) Valeur manquante

7
Lorsque linformation dune observation nest pas disponible pour une variable, elle est dite manquante. Types de valeurs manquantes : Illisible : rponse embrouille - rponse incomprhensible Non disponible : question non rpondue - questionnaire perdu Aberrante : deux rponses distinctes- rponse lextrieur des valeurs permises ou logiques

f) Largeur de la colonne : Spcifie la largeur de la colonne ou les donnes seront saisies (en gnral elle est laisse gale 8)

g) Alignement de linformation : centre, droite ou gauche.


h) chelle de mesure :

a. Nominale catgories - (qualitative ou catgorielle) : de type numrique ou chane,


les valeurs sont non comparables

b. Ordinale (qualitative) rangs : de type numrique


comparables

ou chane, les valeurs sont

c. Echelle (quantitative) : de type ncessairement numrique


Remarque : Souvent, les valeurs numriques des variables qualitatives sont tiquetes (voir tiquettes des valeurs).

Phase B : Prparation des donnes


3. 4. 5.
Saisie des donnes, vrifications. Tri et slections, Transformations, calculs de variables et recodage

Quelques manipulations de prparation des donnes sur SPSS :


Trier : Cette bote de dialogue permet de trier les observations (lignes) du fichier en fonction des valeurs d'une ou plusieurs variables de tri. Vous pouvez trier les observations par ordre croissant ou dcroissant. Si vous slectionnez plusieurs variables de tri, les observations sont tries pour chaque variable au sein des modalits de la variable prcdente dans la liste Tri. Par exemple, si vous slectionnez Sexe comme premire variable de tri et Statut comme seconde variable de tri, les observations seront tries en fonction du statut de chaque individu au sein de chaque modalit de la variable sexe. Pour les variables alphanumriques, les lettres en majuscules prcdent les minuscules dans l'ordre de tri. Par exemple, la valeur "Oui" prcde "oui" dans l'ordre de tri.

Manipulation : Donnes Trier les observations (puis choisir les variables de tri)

9
Slectionner les observations propose une srie de mthodes pour slectionner un sousgroupe d'observations en fonction de certains critres qui incluent variables et expressions complexes. Vous pouvez galement slectionner un chantillon alatoire d'observations. Les critres utiliss pour dfinir un sous-groupe comprennent :

Intervalles et valeurs de variables. Intervalles de date et de temps. Nombres d'observations (lignes). Expressions arithmtiques. Expressions logiques. Fonctions

Echantillonnage alatoire : Cette bote de dialogue vous permet de slectionner un nombre prcis ou un chantillon alatoire partir d'un pourcentage approximatif d'observations. Exactement : un nombre d'observations prcises indiques par l'utilisateur. Vous devez indiquer le nombre d'observations partir duquel l'chantillon sera gnr. Ce deuxime nombre doit tre infrieur ou gal au nombre total d'observations dans le fichier de donnes. Environ : SPSS gnre un chantillon alatoire d'observations dont le nombre correspond approximativement au pourcentage indiqu. Comme cette routine gnre une dcision indpendante pseudo alatoire pour chaque observation, le pourcentage d'observations slectionnes peut seulement approcher le pourcentage spcifi. Plus il y a d'observations dans le fichier de donnes, plus le pourcentage des observations slectionnes sera proche de la valeur indique.

Manipulation : Donnes slectionner les observations (puis choisir le type de slection )


Calculer la variable : calcule les valeurs d'une variable en fonction des transformations numriques d'autres variables. Vous pouvez calculer les valeurs de variables numriques ou sous forme de chane de caractres (alphanumrique). Vous pouvez crer de nouvelles variables ou remplacer les valeurs de variables existantes. Dans le cas de nouvelles variables, vous pouvez aussi spcifier le type et l'tiquette. Vous pouvez calculer les valeurs de manire slective pour des sous-ensembles de donnes en fonction de conditions logiques.

10
Vous pouvez utiliser plus de 70 fonctions intgres, dont des fonctions arithmtiques, statistiques, de distribution, et de chane.

Manipulation : Transformer calculer : donner un nom a la variable crer (destination) et crire la formule de la nouvelle variable.
Recoder dans des variables diffrentes (cration de variables) raffecte les valeurs des variables existantes ou fusionne les intervalles de valeurs existantes en de nouvelles valeurs pour une nouvelle variable. Par exemple, vous pourriez fusionner les salaires en une nouvelle variable contenant des catgories d'intervalles de salaires. Vous pouvez recoder des variables numriques et alphanumriques. Vous pouvez recoder des variables numriques en des variables alphanumriques et inversement.

Manipulation : Transformer recoder nouvelle variable anciennes et nouvelles valeurs


Discrtiser les variables : permet de convertir les donnes numriques continues en un nombre discret de modalits. On connat le nombre de classes mais pas les bornes des classes. La procdure cre de nouvelles variables contenant les donnes qualitatives. Les donnes sont discrtises en fonction des groupes de centile, chacun tant muni du mme nombre d'observations environ. Par exemple, une spcification de 4 groupes affectera une valeur de 1 aux observations infrieures au 25me centile, de 2 celles situes entre le 25me et le 50me centile, de 3 celles situes entre le 50me et le 75me centile et enfin de 4 celles suprieures au 75me centile.

Manipulation : Transformer discrtiser insrer variable discrtiser et le nombre de classes.


Recodage automatique : convertit les valeurs numriques et les valeurs alphanumriques en entiers conscutifs. Certaines procdures ne peuvent utiliser des variables de chane, et certaines ont besoin de valeurs entires conscutives pour les niveaux de facteurs. Les nouvelles variables cres par le Recodage automatique conservent toute variable dfinie et les tiquettes de valeur de l'ancienne variable. Pour toute valeur sans tiquette de dfinition de valeur, la valeur d'origine est utilise comme tiquette pour la valeur recode. Un tableau affiche les anciennes et les nouvelles valeurs et les tiquettes de valeurs. Les valeurs de chane sont recodes dans l'ordre alphabtique, les majuscules prcdant leurs quivalents minuscules. Les valeurs manquantes sont recodes en valeurs manquantes suprieures

11
toutes valeurs non manquantes, en conservant leur ordre. Par exemple, si la variable d'origine comporte 10 valeurs non manquantes, la valeur manquante la plus faible serait recode en 11 et la valeur 11 serait une valeur manquante pour la nouvelle variable.

Manipulation : Transformer recoder automatiquement slectionner la variable recoder et proposer un nouveau nom pour la variable recode

Phase C : Analyse des donnes


6. Exploration des donnes 7. Analyse descriptive des donnes (Tri plat et tris croiss)

8. Analyse infrentielle des donnes (tests dhomognit, dadquation, de comparaison)


9. Analyses avances. (Dtail : Prochains TP)

You might also like