You are on page 1of 9

e-Miage

Master MIAGE M1
Florin Craciun
Devoir n1
Module : C106
Intitul du module : Analyse de donnes

Note importante : Le rendu d'un devoir est un travail personnel. En rendant son devoir l'tudiant garantitsur
son honneur que son travail est 100% personnel.

Le but des deux premiers exercices est la rvision de notions apprises divers niveaux et oublies. Les
connaissances contenues dedans sont des bases solides pour acqurir da suite.
Exercice 1 :
1- Complter le tableau ci-dessous
Caractres
Sexe

Qualitatif

Quantitatif discret

Quantitatif continu

Taille

Age

Etat matrimonial

X
X

Poids
Couleur des yeux

Tension artrielle

Taux de cholestrol

Rgion habite
Chiffres daffaires dune
PME agroalimentaire

X
X

Taille des
entreprises du
secteur tertiaire

Quotient familial dun


contribuable

Nombre de personnes
habitant
une rsidence
principale

Nombre de places de
cinma associ
chaque salle

Nombre denfants

par mnage

1
/3

2- Donner un exemple complt par des calculs et/ou graphiques dune variable :
Nominale.
Les variables nominales sont des variables non numriques.
Exemple : les professions dans une population.
Ordinale
Example : les qualificatifs dans une comptition sportive : premier, 2eme, dernier etc
Qualitative coder
Pendant vos tudes secondaires avez-vous t initi linformatique ?
Oui
Non
Codage :
Variable : 1 si oui
0 sinon
Quantitative discrte
Les variables quantitatives discrtes: sont des valeurs que lon peut numrer, il est inutile dutiliser
des classes pour les exprimer. Par exemple, le nombre de personnes dans le mnage, le
nombre de cellulaires ou bien le nombre de prsence au centre commercial par mois sont autant de
possibilits pour des variables quantitatives discrtes.
Quantitative continue
Les variables quantitatives continues: sont des valeurs trs nombreuses dont lnumration serait
fastidieuse. Il est donc prfrable de les exprimer en classe de largeur gale. Par exemple, le poids est
une variable quantitative continue puisquil est possible de peser autant 4kg 600 kg et mme
beaucoup plus si sattarde au poids des voitures par exemple.
Exercice 2 :
On tudie la distribution des principaux impts en France en 2002. Les valeurs
sont donnes en milliards deuros. Source : Administration fiscale

Impts Locaux
Taxe
professionnelle

Taxe
dhabitation

Taxes
foncires sur
proprits
bties

26.3
12
1) Donner le tableau en frquence.

19.8

26.3
0.08668
12
0.03955
19.8
0.06526
50.5
0.16644
46.1
0.15194
123.2
0.40606
25.5
0.08404
Total : 303.4
1
2) Quelle est la part des impts locaux ?

(8.7%)
(4.0%)
(6.5%)
(16.6%)
(15.2%)
(40.6%)
(8.4%)
(100%)

Total impts locaux = 58.1


Total impts general = 303.4
La part des impts locaux est : 19.14%

2
/3

Impts nationaux
Impt
Impt
sur le
sur les
revenu
socits

TVA

Taxes sur
les produits
ptroliers

50.5

123.2

25.5

46.1

3) Donner les tableaux en frquence des impts locaux, des impts nationaux
Impots Locaux
26.3
12
19.8
Total = 58.1
Impots Nationaux
50.5
46.1
123.2
25.5
Total : 245.3

0.45266
0.20654
0.34079
1

(45.3%)
(20.7%)
(34.0%)
(100%)

0.20587
0.18793
0.50224
0.10395
1

(20.6%)
(18.8%)
(50.2%)
(10.4%)
(100%)

Analyse des corrlations et rgression linaire. Problme :


On tudie 20 individus suivant 3 variables : X1 lge, X2 le solde du mois de dcembre 2010, X3 lpargne du livret
A la fin 2010.
Le tableau qui suit rsume les donnes rcoltes par une banque imaginaire.
Individus

Age (X1)

Solde janvier (X2)

Epargne annuelle

45

1150

3541

67

1600

4930

34

910

2800

12

320

980

28

650

2000

55

1300

4000

33

800

2500

27

650

2010

68

1750

5400

10

43

1000

3000

11

44

1200

3400

12

52

1350

2500

13

25

600

1500

14

35

1500

3000

15

48

2500

3200

16

62

1880

4000

17

39

1750

3300

18

64

1550

2880

19

58

1400

3000

20

19

800

1200

3
/3

1) Raliser une analyse statistique descriptive pour chacune des variables.


Age
Solde
Epargne
Age
80
60

68

67
45

43
34

40

33

28

64

62

55

52

44

39

35

27

58

48
25

19

12

20
0
1

Moyenne = 42.9

10

Min = 12 - Max = 68

11

12

13

14

15

Mdiane = 43.6

16

17

18

19

20

Ecart-type=16.36

Solde
3000

2500

2500
2000

1750

1600

1500

1300

1150

910

1000

800

650

1000

1200

1350

650

1550

1400
800

600

320

500

1880 1750

1500

0
1

Moyenne = 1233

10

11

Min = 320 - Max = 2500

12

13

14

15

Mdiane = 1250

16

17

18

19

20

Ecart-type= 531.46

Epargne

6000
5000
4000

5400

4930
4000

3541
2800

3000

2500

2000

2000

3000

4000

3400

2010

2880 3000

1500

980

1000

3300

3000 3200

2500

1200

0
1

Moyenne = 2957.05

10

Min = 980 - Max = 5400

11

12

13

14

Mdiane = 3000

4
/3

15

16

17

18

19

20

Ecart-type= 1127.07

2) De la question 1 prciser pour chacune des variables : la moyenne


arithmtique, la variance ainsi que lcart type.

[Moyenne arithmtique, variance, lcart type] Variable X1 Age :


Individus

Age X1

X - moyenne

(X - moyenne)^2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Somme

45
67
34
12
28
55
33
27
68
43
44
52
25
35
48
62
39
64
58
19
858

2.1
24.1
-8.9
-30.9
-14.9
12.1
-9.9
-15.9
25.1
0.1
1.1
9.1
-17.9
-7.9
5.1
19.1
-3.9
21.1
15.1
-23.9
0.00

4.41
580.81
79.21
954.81
222.01
146.41
98.01
252.81
630.01
0.01
1.21
82.81
320.41
62.41
26.01
364.81
15.21
445.21
228.01
571.21
5085.8

Moyenne

42.9

Nombre
individus

20

20

20

Variance
Ecart type

267.6736842
16.36073605

5
/3

[Moyenne arithmtique, variance, lcart type] Variable X2 Solde Janvier


Individus
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Somme

Solde Janvier
X2
1150
1600
910
320
650
1300
800
650
1750
1000
1200
1350
600
1500
2500
1880
1750
1550
1400
800
24660

Moyenne

1233

Nombre individus

20

X - moyenne

(X - moyenne)^2

-83
367
-323
-913
-583
67
-433
-583
517
-233
-33
117
-633
267
1267
647
517
317
167
-433
0.00

6889
134689
104329
833569
339889
4489
187489
339889
267289
54289
1089
13689
400689
71289
1605289
418609
267289
100489
27889
187489
5366620

20

Variance
Ecart type

20

282453.6842
531.4637186

[Moyenne arithmtique, variance, lcart type] Variable X3 Epargne annuelle


Individus
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Somme

Epargne
annuelle X3
3541
4930
2800
980
2000
4000
2500
2010
5400
3000
3400
2500
1500
3000
3200
4000
3300
2880
3000
1200
59141

Moyenne

2957.05

Nombre individus

20

Variance
Ecart type

X - moyenne

(X - moyenne)^2

583.95
1972.95
-157.05
-1977.05
-957.05
1042.95
-457.05
-947.05
2442.95
42.95
442.95
-457.05
-1457.05
42.95
242.95
1042.95
342.95
-77.05
42.95
-1757.05
0.00

340997.6025
3892531.703
24664.7025
3908726.703
915944.7025
1087744.703
208894.7025
896903.7025
5968004.703
1844.7025
196204.7025
208894.7025
2122994.703
1844.7025
59024.7025
1087744.703
117614.7025
5936.7025
1844.7025
3087224.703
24135586.95

20

20

1270294.05
1127.073223

6
/3

3) Calculer les coefficients de corrlation des variables par paire.


Variables X1, X2
individus
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Sum

cc

Age X1
45
67
34
12
28
55
33
27
68
43
44
52
25
35
48
62
39
64
58
19
858

Solde janvier X2
1150
1600
910
320
650
1300
800
650
1750
1000
1200
1350
600
1500
2500
1880
1750
1550
1400
800
24660

x1x2
51750
107200
30940
3840
18200
71500
26400
17550
119000
43000
52800
70200
15000
52500
120000
116560
68250
99200
81200
15200
1180290

x1^2
2025
4489
1156
144
784
3025
1089
729
4624
1849
1936
2704
625
1225
2304
3844
1521
4096
3364
361
41894

x2^2
1322500
2560000
828100
102400
422500
1690000
640000
422500
3062500
1000000
1440000
1822500
360000
2250000
6250000
3534400
3062500
2402500
1960000
640000
35772400

Coefficient de corrlation pour la paire X1,X2 est : 0.74074


Mme mthode de calcul pour les paires des variables X1,X3 et X2,X3
Coefficient de corrlation pour la paire X1,X3 est : 0.86185
Coefficient de corrlation pour la paire X2,X3 est : 0.68625
4) Effectuer une analyse explicative de la variable pargne X3 en fonction des deux variables soldes fin danne 2010
(X2) et Age (X1), ce qui revient raliser une rgression linaire multiple, ou crire : (1) X3= +X1+X2
Variable x
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

45
67
34
12
28
55
33
27
68
43
44
52
25
35
48
62
39
64
58
19

Variable y
1150
1600
910
320
650
1300
800
650
1750
1000
1200
1350
600
1500
2500
1880
1750
1550
1400
800

7
/3

3541
4930
2800
980
2000
4000
2500
2010
5400
3000
3400
2500
1500
3000
3200
4000
3300
2880
3000
1200

x
1
45
1150

1
67
1600

1
34
910

1
12
320

1
28
650

1
55
1300

1
33
800

1
27
650

1
68
1750

1
43
1000

1
44
1200

1
52
1350

1
25
600

1
35
1500

1
48
2500

1
62
1880

1
39
1750

1
64
1550

1
58
1400

1
19
800

xx
20
858
24660

858
41894
1180290

24660
1180290
35772400

xx-1
0,428508
-0,006441
-0,000083

-0,006441
0,000436
-0,000010

-0,000083
-0,000010
0,000000

xy
59141
2839105
80852250

xx-1 * xy
=354,8076048
=52,75924533
=0,274834364

x3= 354.81 + 52.759 *x1 + 0.275*x2

pour la premiere variable x3 =>


x3=354.807+52.759*45 + 0.274*1150=3044
5) Comparer les valeurs obtenues par la relation (1) avec les donnes observes (celles du tableau).
x1

x2
45
67
34
12
28
55
33
27
68
43
44
52
25
35
48
62
39
64
58
19

1150
1600
910
320
650
1300
800
650
1750
1000
1200
1350
600
1500
2500
1880
1750
1550
1400
800

Epargne annuelle relle

Previsions sur l'epargne

x3

x3'
3541
4930
2800
980
2000
4000
2500
2010
5400
3000
3400
2500
1500
3000
3200
4000
3300
2880
3000
1200

Residu (x3'-x3)
3044.062
4328.06
2397.953
1075.595
2010.159
3612.752
2315.054
1957.4
4421.919
2897.444
3005.003
3468.175
1838.182
2612.372
3572.239
4140.985
2891.908
4156.083
3798.429
1576.428

8
/3

-496.938
-601.94
-402.047
95.595
10.159
-387.248
-184.946
-52.6
-978.081
-102.556
-394.997
968.175
338.182
-387.628
372.239
140.985
-408.092
1276.083
798.429
376.428

6000
5000
4000
3000

x3

2000

x3'

1000

Residu (x3'-x3)

0
-1000

10

15

20

25

-2000

6) En supposant que la relation (1) dcrit correctement liaisons entres les 3 variables exprimer lpargne pour en
homme de 20 ans et dont le salaire est 1350euro.
x3=354.807 + 52.759*20 + 0.274*1350 = 1779
L'eparne annuelle d'un homme de 20 ans avec un salaire de 1350 euros sera 1779 euros

9
/3

You might also like