You are on page 1of 67

1

Estadstica
Alberto Vega Hernndez

Consultora de Servicios para Gobiernos y Estudios Legislativos


Apuntes de Investigacin y divulgacin cientfica

Estadstica.
Apuntes de investigacin y divulgacin cientfica.
Consultora de Servicios para Gobiernos y Estudios Legislativos.
Prolongacin Paseo de la Reforma No. 530, 2 piso,
Delegacin lvaro Obregn, C.P. 01219.
Ciudad de Mxico, Distrito Federal.
Primera edicin: marzo de 2007.

Autor: Alberto Vega Hernndez.


Las opiniones vertidas de estos apuntes son responsabilidad del autor.

Manual de distribucin gratuita, prohibida su venta.


Impreso en Mxico.
3

Contenido
UNIDAD I
INTRODUCCIN A LA ESTADSTICA
1.1 Definicin de Estadstica ....................................................................................................................... 8
1.1.1 La Estadstica Descritiva ........................................................................................................... 8
1.1.2 La Estadstica Inferencial ......................................................................................................... 8
1.2 La encuesta .................................................................................................................................................. 8
1.3 La poblacin ................................................................................................................................................ 8
1.4 La muestra.................................................................................................................................................... 9
1.5 La variable .................................................................................................................................................... 9
1.6 La variable discreta ................................................................................................................................10
1.7 La variable continua ..............................................................................................................................10
1.8 El dato y los datos ...................................................................................................................................10
1.9 El experimento .........................................................................................................................................10
1.10 El parmetro...........................................................................................................................................10

UNIDAD II
REPRESENTACIN DE GRFICAS DE DATOS

2.1 La grfica .....................................................................................................................................................11


2.2 Diagramas de pastel ..............................................................................................................................11
2.3 Graficas de barras ...................................................................................................................................11
2.4 Diagramas de Pareto .............................................................................................................................12
2.5 Distribucin de frecuencias. ..............................................................................................................13
a) Mtodo simple ...................................................................................................................................13
b) Mtodo complejo..............................................................................................................................14

UNIDAD III
MEDIDAS DE TENDENCIA CENTRAL

3.1 La Media ......................................................................................................................................................17


a) Datos simples .....................................................................................................................................17
b) Datos de frecuencia .........................................................................................................................18
c) Datos agrupados ...............................................................................................................................19
3.2 La Mediana .................................................................................................................................................21
a) Datos simples .....................................................................................................................................21
b) Datos de frecuencia .........................................................................................................................22
c) Datos agrupados ...............................................................................................................................23
3.3 La Moda .......................................................................................................................................................25
a) Datos simples .....................................................................................................................................25
b) Datos de frecuencia .........................................................................................................................26
c) Datos agrupados ...............................................................................................................................27
3.3 Relacin entre las medidas de tendencia central ....................................................................28

UNIDAD IV
MEDIDAS DE DISPERSIN

4.1 La Desviacin Media ..............................................................................................................................29


a) Datos simples .....................................................................................................................................29
b) Datos de frecuencia .........................................................................................................................30
c) Datos agrupados ...............................................................................................................................32
4.2 La Varianza ................................................................................................................................................33
a) Datos simples .....................................................................................................................................33
b) Datos de frecuencia .........................................................................................................................34
c) Datos agrupados ...............................................................................................................................36
4.3 La Desviacin Estandar ........................................................................................................................37
a) Datos simples .....................................................................................................................................37
b) Datos de frecuencia .........................................................................................................................38
6

c) Datos agrupados ...............................................................................................................................40


4.4 Coeficiente de Variacin ......................................................................................................................41

UNIDAD V
MEDIDAS DE POSICIN NO CENTRAL

5.1 Deciles ..........................................................................................................................................................43


5.2 Cuartiles ......................................................................................................................................................43
5.3 Percentiles ..................................................................................................................................................43
5.4 Cuartil medio ............................................................................................................................................45

UNIDAD VI
MEDIDAS DE FORMA

6.1 Concentracin...........................................................................................................................................46
6.2 Asimetra.....................................................................................................................................................47
6.3 Curtosis ........................................................................................................................................................49
6.4 El Teorema de Chebyshev ..................................................................................................................51

UNIDAD VII
LA CORRELACIN LINEAL

7.1 La Correlacin Lineal ............................................................................................................................53


7.2 El coeficinete de correlacin lineal ................................................................................................55
7.3 Coeficinete de correlacin de Pearson .........................................................................................56
7.4 La Regresin Lineal................................................................................................................................59
Bibliografa ............................................................................................................................ 66

UNIDAD I
INTRODUCCIN A LA ESTADSTICA

1.1 Definicin de Estadstica

Ciencia que se encarga de la recoleccin, descripcin e interpretacin datos. Nos


permite realizar grficas y su fin es el anlisis para tomar decisiones.

1.1.1 La Estadstica Descriptiva


Conjunto de procedimientos secuenciales, recoleccin, organizacin y anlisis de
informacin cuya finalidad es la presentacin simplificada cuya mejor interpretacin
ayude a tomar decisiones. La estadstica descriptiva utiliza el mtodo deductivo, que
va de la poblacin a la muestra.

1.1.2 La Estadstica Inferencial

Conjunto de procedimientos basados en la Teora de la probabilidad permite hacer


inferencia sobre caractersticas de la poblacin tomando en ella una muestra y as
ayuda a tomar decisiones en sistemas de incertidumbre. La estadstica inferencial
utiliza el mtodo deductivo.- Que va de la muestra a la poblacin.

1.2 La encuesta
Es un cuestionario elaborado para obtener informacin, que se puede expresar
mediante nmeros tabulares.

1.3 La poblacin

Conjunto de individuos, objetos o medidas que tiene alguna caracterstica.

1.4 La muestra

Subconjunto de la poblacin.
Marco muestral.- Es una lista de elementos que pertenecen a la poblacin de
la cual se obtendr una muestra.
Muestra probabilstica.- Son muestras en que los elementos a seleccionar se
obtienen con base en la probabilidad. Cada elemento de una poblacin tiene
cierta probabilidad de ser elegido como parte importante.
Muestra aleatoria simple.- Muestra seleccionada de modo que todos los
elementos de la poblacin tienen la misma probabilidad de ser elegidos.
Muestra sistemtica.- Muestra en la cual se seleccionada todo k-simo
elemento del marco muestral, empezando como primer elemento que se elige
de manera aleatoria.
Muestra aleatoria estratificada.- Muestra que se obtiene al estratificar el
marco muestral, y luego se selecciona un nmero fijo de elementos de cada uno
de los estratos por medio de una tcnica de muestreo aleatorio simple.

1.5 La variable

Caracterstica que al ser medida en diferentes individuos es susceptible de adoptar


diferentes valores. Existen diferentes tipos de variables:
La variable cualitativa.- Variable que clasifica o describe un elemento de una
poblacin. En esta no se pude medir numricamente (color de un coche,
nacionalidad, color de la piel, sexo).
La variable cuantitativa.- Variable que cuantifica un elemento de una
poblacin. Tiene un valor numrico (como ejemplo: peso, longitud,
nacionalidad, etctera).
La variable nominal.- Variable

cualitativa que describe o identifica un

elemento de una poblacin. Para datos resultantes de variable nominal, las


operaciones aritmticas no slo carecen de sentido: tampoco es posible asignar
un orden a las categoras.
9

La variable ordinal.- Es una variable cualitativa que presenta una posicin, o


clasificacin ordenada.

1.6 La variable discreta

Slo puede tomar valores enteros y exactos 1, 2, 3, 4. Ejemplo: nmero de hijos en una
familia, nmero de personas en una empresa.

1.7 La variable continua


Puede asumir cualquier valor. Sin importar el tamao. Por ejemplo: ingreso, estaturas,
edades. La variable continua se divide en:
Variable numrica.- Cuando los valores son nmeros.
Variable nominal.- Cuando los valores son palabras.

1.8 El dato y los datos

El dato se refiere al valor de la variable asociada a un elemento de una poblacin o


muestra. Este valor puede ser un nmero, una palabra o un smbolo.

Los datos son el conjunto de valores recolectados para la variable de cada uno de los
elementos que pertenecen a la muestra.

1.9 El experimento
Actividad planeada cuyos resultados producen un conjunto de datos.

1.10

El parmetro

Valor numrico que resume todos los datos de una poblacin.

10

UNIDAD II
REPRESENTACIN DE GRFICAS DE DATOS

2.1 La grfica

Las grficas son representaciones que producen los resultados de datos en estudio.

2.2 Diagramas de pastel

Grficas que se utilizan para resumir datos cualitativos. El diagrama muestra la


cantidad de datos que pertenecen a cada categora como una parte proporcional de un
crculo.

Corazn

Piel
Hgado
Riones
Ojos

2.3 Grficas de barras


Muestran la cantidad de datos que pertenecen a cada categora como reas
rectangulares.

11

6
4

2
0
operaciones

2.4 Diagrama de Pareto

El diagramad de Pareto se define como una grfica a base de rectas que muestra los
porcentajes acumulados y la cantidad de datos representada por cada barra. El
diagrama puede ir de la ms numerosa a la menos numerosa o viceversa.

4.3
2.42

4.4
2.5 2

3.5 3
1.8

4.5 5
2.8

12

2.5 Distribucin de frecuencias

Distribucin de frecuencias se define como el arreglo de datos en forma tabular,


donde una de las columnas representa la variable y la otra columna representa la
frecuencia absoluta o relativa. Listado, expresado en forma de diagrama que asocia
cada valor de una variable con la frecuencia.

a) Mtodo simple
x1(f1) + x2(f2) + x3(f3) + xn(fn)
Distribucin de frecuencias =

_______________________________________________
f

Ejemplo:
De acuerdo con los siguientes datos:

2
f = 20

D.f = 0(1) + 1(3) + 2(8) + 3(5) + 4(3)


_________________________________________
20

D.f = 2.3

13

b) Mtodo complejo

Para este mtodo se deben tener en cuenta las formulas siguientes:

Rango
Amplitud =

________________

V mx V mn
=

____________________

# Intervalos

Li + Ls
Marca de clase (m) = ____________
2

f
Frecuencia relativa (f.r) = _____________
Total de f

Frecuencia relativa acumulada (f.r.a) = f.r + anterior

Ejemplo:
De acuerdo con los siguientes datos:

Dato

Frecuencia

64

66

69

74

75

82

1
14

83

84

85

86

88

89

90

98

100

101

102

103

3
Rango

Amplitud =

V mx V mn

---------------

# Intervalos

---------------------N
103 64
----------- =
30

39
---------- = 6.5 = 7
5.4772

Marca de
clase
67

Frecuencia
relativa
0.1

Frecuencia
relativa
acumulada
0.1

71 77

74

0.06

0.16

78 - 84

81

0.1

0.26

85 91

88

0.23

0.49

92 98

95

0.06

0.55

Intervalo

Frecuencia

64 70

15

99 - 105
Li

Ls

13

102

f = 30

0.43

0.98

fr = 1

Li + Ls

64 + 70

Marca de clase (m) = ____________ = _____________ = 67


2

Frecuencia relativa (f.r) = _____________ = ___________ = 0.1


total de f

30

Frecuencia relativa acumulada (f.r.a) = f.r + anterior = 0.1 + 0.06 = 0.16

Frecuencia
13

Frecuencia relativa acumulada


0.98
0.55

Histograma

0.49

Ojiva

7
0.26

0.16

0.1
64 70 77 84 91 98 105

Intervalos

67 74 81 88 95 102 Marca de clase

16

UNIDAD III
MEDIDAS DE TENDENCIA CENTRAL

3.1 La Media

Media o Media Aritmtica (x) es el promedio de la serie, se puede presentar de


manera simple, frecuencia y agrupada.

a) Datos simples
x
= ________
n
Donde:
= media
= Sumatoria
x = dato
n = tamao de la muestra

Ejemplo:
Un estudiante de vocacional desea conocer el promedio de sus calificaciones de quinto
semestre.
Matemticas 7

Qumica 6

Biologa 5

Filosofa 8

Fsica 9

Ingls 10

x
= ________
n

17

7 + 5 + 9 +6 + 8 + 10

45

= ____________________________ = _____ = 7.5.


6

Interpretacin.- El promedio del estudiante de vocacional en el quinto semestre es de 7.5

b) Datos de frecuencia

f x
= _________
N
Donde:
= media
= Sumatoria
x f = dato por frecuencia
N = tamao de la frecuencia

Ejemplo:
Las calificaciones de ingls de 20 alumnos son:
1, 7, 9, 2, 5, 4, 5, 6, 7, 6, 2, 6, 8, 6, 5, 4, 5, 2, 4, 3

Calificaciones Frecuencia
1

18

f = 20

f x
= _________
N

1(1) + 2(3) + 3(1) + 4(3) + 5(4) + 6(4) + 7(2) + 8(1) + 9(1)


= _________________________________________________________________________
20

97
= _________ = 4.85
20

Interpretacin.- 4.85 es el promedio de calificaciones de ingls de 20 alumnos. Es un


grupo con bajo aprovechamiento.

c) Datos agrupados

fm
= ___________
N

19

Donde:
= media
= Sumatoria
f m = frecuencia de la marca de clase
N = tamao de los datos

Ejemplo:
Determina el promedio de calificaciones del grupo 3103 e interpreta los resultados.

Calificacin

Frecuencia (f)

Marca de clase (m)

f*m

7 7.6

7.3

7.3

7.7 8.3

72

8.4 9.0

12

8.7

104.4

9.1 9.8

11

9.47

103.95

f = 33

fm = 287.65

fm
= ___________
N

287.65
= ___________ = 8.71
33

Interpretacin.- En un grupo de 33 personas con calificacin de 7 a 9.8, el promedio del


semestre es de 8.71, lo que corresponde a un nivel considerable.

20

3.2 La Mediana

Mediana (x).- Datos que ocupan la posicin central de la serie ya sea simple,
frecuencia o agrupada.

a) Datos simples

mitad de los 2 nmeros de en medio


= ____________________________________________
2
Donde:
= mediana

Ejemplo:
En la siguiente numeracin encuentre la media.
5, 6, 6, 7, 8, 9, 10, 11

mitad de los 2 nmeros de en medio


= ____________________________________________
2

7 + 8
= ___________ = 7.5
2

Interpretacin.- 7.5 es la mediana.

21

b) Datos de frecuencia

N+1
= ___________
2

Donde:
= mediana
N + 1 = suma total de la frecuencia

Ejemplo:
En la siguiente tabla se muestra el nmero de hijos de 51 familias, por favor encuentre
la mediana.

Hijo (x)

Nmero de familias (f)

Frecuencia acumulada (fa)

10

17

15

32

10

42

49

51

f = 51

N+1

51 + 1

= ___________ = __________ = 26
2

Interpretacin.- 26 corresponde a la mediana de los hijos de 51 familias.


22

c) Datos agrupados

L1 + _(N+1/2 S) C
fm
Donde:
= mediana
L1 = limite real inferior de la clase mediana
N = total de datos o frecuencia
f m = frecuencia de la clase mediana
C = longitud del intervalo de la clase

Ejemplo:
En la siguiente tabla, se muestran los coeficientes de 70 nios intelectuales, en una
escuela publica, por favor calcular la mediana.

Cociente intelectual (x)

Frecuencia (f)

Frecuencia acumulada (fa)

94 98

13

13

99 103

20

33

104 108

18

51

109 113

54

114 118

16

70

f = 70

= 104 + 103 = 104 + 103 = 103.5


2

23

N + 1 = 70 + 1 = 71 = 35.5
2

S = 33

fm = 18

C=4

L1 + (N+1/2 S) C
fm

103.5 + (35.5 33) 4


18

103.5 + (0.1388)4

104.2

Interpretacin.- De los coeficientes intelectuales de 70 nios en una escuela pblica, la


mediana corresponde a 104.2.

24

3.3 La Moda

Moda (x).- Nmero que ms se repite de la serie ya sea simple, frecuencia o agrupada.

a) Datos simples

= nmero que ms
veces se repite
Donde:
= moda

Ejemplo:
Encuentre la moda de un grupo de adolescentes, segn el color de su camisa favorita.

Color de la camisa
No,

de

azul

gris

caf

verde

15

adolescentes

= nmero que ms
veces se repite
= Caf 15 veces

Interpretacin.- 15 es el nmero que ms veces se repite, lo que significa que le color


favorito de 15 adolescentes es el caf.

25

b) Datos de frecuencia

= nmero que ms
veces se repite
Donde:
= moda

Ejemplo:
Encuentre la moda de los datos de las estaturas de un grupo de 10 personas:
1.9, 1.9, 1.4, 1.5, 1.3, 1.4, 1.6, 1.2, 1.4, 1.9

Calificaciones Frecuencia
1.2

1.3

1.4

1.5

1.6

1.9

3
f = 10

= nmero que ms
veces se repite
= 1.4 y 1.9

Interpretacin.- La moda de datos en las estaturas de un grupo de 10 personas es


binominal, porque se presentan dos modas 1.4 y 1.9

26

c) Datos agrupados

L1 +

_ ( d1 )

d1 + d2

Donde:
= moda
L1 = limite real inferior de la clase modal
d1 = frecuencia de la clase modal menos la frecuencia de la clase anterior
d2 = frecuencia de la clase modal menos la frecuencia de la clase siguiente
C = intervalo de la clase

Ejemplo:
Encuentre la moda de un grupo de personas de la tercera edad.

Edades (x)

Frecuencia (f)

60 64

65 69

18

70 74

42

75 79

27

80 - 84

L1 = 69 + 70 = 69.5
2
C = 5
d1 = 42 18 = 24
d2 = 72 27 = 15
=

L1 +

_ ( d1 )

d1 + d2
27

69.5 + ( 24 ) 5
24+15

69.5 + ( 24 ) 5
39

69.5 + (0.61) 5

72.55

Interpretacin.- La moda de las edades de un grupo de la tercera edad oscilan entre


72.55
3.4 Relacin entre las medidas de tendencia central

Se relacionan la media, la mediana y la moda, coincidiendo en una sola grfica.


Sesgo.- Es una medida que indica la forma de la curva a travs del grado de asimetra
que presenta un polgono de frecuencia.

Sesgo +

Sesgo -

Si el polgono esta cargado a la izquierda,

Si el polgono esta cargada a la derecha, la

media esta ms alejada al cero, esto se

media est ms cercana al cero, esto se

llama positivamente sesgada.

llama negativamente sesgada.


28

UNIDAD IV
MEDIDAS DE DISPERSIN

4.1 La Desviacin Media

Desviacin Media (DM/DMA) es la distancia promedio de los elementos respecto a


una medida de tendencia central como la media. La desviacin media es la aritmtica
de las desviaciones de los valores individuales con respecto al promedio de los datos.

a) Datos simples

/x /
DM = _______________
n
Donde:
DM = desviacin media
= sumatoria
/x

/ = dato menos media (abs)


n = datos totales

Ejemplo:
Un comerciante compra cajas de dulces.
Chocolates 5

Chupirules 3

Tamarindos 7

Alegras 2

Paletas 8

Cocadas 6

Dulces

Cajas

Chocolates

5 5.16 =0.16

Tamarindos

7 5.16 = 1.84

/x

29

Paletas

8 5.16 =2.84

Chupirules

3 5.16 = 2.16

Alegras

2 5.16 = 3.16

cocadas

6 5.16 = 0.84
= 11

5+7+8+3+2+6
11
= ____________________________ = _____ = 51.66
6

/x /
11
DM = _______________ = ___
N

DM = 1.83

Interpretacin. La desviacin media de un comerciante de cajas de dulces es de 1.83

b) Datos de frecuencia

f /x /
DM = _________________
N
Donde:
DM = desviacin media
f = sumatoria de frecuencia
/x

/ = dato menos media (abs)

N = datos totales de frecuencia

30

Ejemplo:
Las calificaciones de un nmero de estudiantes se presentan a continuacin.
Calificacin (x)

No alumnos (f)

f*x

10

( 6.96)= 1.96

3.92

10

60

0.96

9.60

56

0.04

0.32

72

1.04

9.36

18

2.04

4.08

f = 31

fx = 216

/x

f/x

f/x / = 27.28

= 215 = 6.96
31
f /x /
DM = _________________
N
27.28
DM = _________
31

DM = 0.88

Interpretacin.- La desviacin media de las calificaciones de un nmero determinado de


alumnos es de 0.88

31

c) Datos agrupados

f /m /
DMA = _______________
N
Donde:
DMA = desviacin media
f = sumatoria de frecuencia
/m

/ = marca de clase media (abs)


N = datos totales de frecuencia

Ejemplo:
Encuentre la desviacin media de las siguientes edades de un grupo de 180 personas
hospitalizadas por tener enfisema pulmonar.
Intervalos

f*m

42 46

44

88

(44-61.14) 17.14

34.28

47 51

49

441

12.14

109.26

52 56

31

54

1674

7.14

221.26

57 61

50

59

2950

2.14

107.00

62 66

51

64

3264

2.86

145.86

67 71

30

69

2070

7.86

235.80

72 - 76

74

518

12.86

90.02

f = 180

fm = 11005

/m

f /x

f/x

/ = 943.56

= 11005 = 61.14
180

32

f /m /
DMA = _______________
N
943.56
DMA = __________
180

DMA = 5.24

Interpretacin.- La desviacin media absoluta de 180 personas hospitalizadas por


tener enfisema pulmonar es de 5.24

4.2 La Varianza

La varianza (s2 / G2) mide la distancia existente entre los valores de la serie y la media.
Se usa s2 cuando se trabaja con la muestra. Se usa G2 cuando se trabaja con toda la
poblacin.

a) Datos simples

/x /2
s2 = _______________
n
Donde:

s2 = Varianza
= sumatoria
/x

/2 = (dato media)2
n = datos totales

33

Ejemplo:
Hallar la varianza para el siguiente conjunto de datos.
30, 38, 59, 11, 15, 20, 21, 17, 12 y 22
/x /2
s2 = _______________
n
(30-245)2 + (38-245)2 + (59-245)2 + (11-245)2 + (15-245)2 + (20-245)2 +
(21-245)2 + (17-245)2

s2

= ____________________________________________________________________________________________
10

1926.5
s2 = _______________
10

s2

= 192.62

Interpretacin.- La varianza de un conjunto de datos simples es de 192.62


b) Datos de frecuencia

f /x /2
s2 = _________________
N
Donde:

s2 = Varianza
f = sumatoria de frecuencia

34

/x

/2 = (dato media)2

N = datos totales de la frecuencia


Ejemplo:
Las edades de un grupo de 60 nios.

x*f

10

80

-3

90

10

16

160

-1

16

12

26

312

26

14

112

72

f = 60

fx = 664

/x

/x

f /x

/2

f /x

/2

/2 = 204

= 664 = 11.06 = 11
60

f /x /2
s2 = _________________
N
204
s2 = ________
60

s2 = 3.4
Interpretacin.- La varianza de un grupo de 60 nios es de 3.4

35

c) Datos agrupados

f /x /2
s2 = _______________
N

Donde:

s2 = Varianza
f = sumatoria de frecuencia
/m

/2 = (marca de la clase media)2


N = datos totales de la frecuencia

Ejemplo:
Hallar la varianza de un conjunto de elementos.

Datos

f*m

1 20

17

10.5

178.5

34.88

1216.61

20682.37

21 40

30.5

213.5

14.88

221.41

1549.8

41 61

50.5

353.5

5.12

26.21

183.47

61 - 80

10

70.5

705

25.12

631.01

6310.1

81 - 100

90.5

814.5

45.12

2035.8

18322.2

f= 50

fm=2269

/m

f /m

/m

/2

f /m

/2

/2 = 47,057.94

= 2269 = 45.38
50
f /x /2
s2 = _______________
N

36

47,057.94
s2 = _______________
50

s2

= 941.1588

Interpretacin.- La varianza para datos agrupados es de 947.15

4.3 La Desviacin Estndar

Desviacin Media (S / G) es una medida de la fluctuacin (dispersin). Es un tipo de


medida con la que se es posible comparar la variabilidad de un conjunto de datos con
otros.

a) Datos simples

/x /2
S = _______________
n
Donde:
S = desviacin estndar
= raz cuadrada
= sumatoria
/x

/2 = (dato media)2
n = datos totales

Ejemplo:
Calcular la desviacin estndar para el siguiente conjunto de elementos.
5, 9, 12, 7, 15 y 3

37

= 5 + 9 + 12 + 7 + 15 +3 = 8.5
6
/x /2
S = _______________
N
(5-8.5)2 + (9-8.5)2 + (12-8.5)2 + (7-8.5)2 + (15-8.5)2 + (3-8.5)2
S = _______________________________________________________________________________
6
S = 16.58

S= 4.07

Interpretacin.- La desviacin estndar de un conjunto de datos es de 4.07


b) Datos de frecuencia

f /x /2
S = _________________
N
Donde:
S = desviacin estndar
= raz cuadrada
f = sumatoria de la frecuencia
/x

/2 = (dato media)2

N = datos totales de la frecuencia

38

Ejemplo:
De los siguientes datos de estaturas de un grupo de 60 nios calcule la desviacin
estndar.

x*f

10

80

90

10

16

160

16

12

26

312

26

14

112

72

f= 60

fx=664

/x

/x

/2

f/x

f /x

/2

/2 = 204

= 664 = 11.06 = 11
60
f /x /2
S = _________________
N
204
S = _________
60
S = 3.4

S = 1.84

Interpretacin.- La desviacin estndar para un conjunto de datos en estaturas de 60


alumnos es de 1.84

39

c) Datos agrupados

f /m /2
S = _________________
N

Donde:
S = desviacin estndar
= raz cuadrada
f = sumatoria de la frecuencia
/m

/2 =(marca de la clase media)2


N = datos totales de la frecuencia

Ejemplo:
Hallar la desviacin estndar del siguiente conjunto de datos.

Datos

f*m

1 20

17

10.5

178.5

34.88

1216.61

20682.37

21 40

30.5

213.5

14.88

221.41

1549.8

41 61

50.5

353.5

5.12

26.21

183.47

61 - 80

10

70.5

705

25.12

631.01

6310.1

81 - 100

90.5

814.5

45.12

2035.8

18322.2

f= 50

fm=2269

/m

/m

f /m

/2

f /m

/2

/2 = 47,057.94

= 2269 = 45.38
50
f /m /2
S = ___________________
N

40

47,057.94
S = _________________
50
S = 947.1588

S= 30.68

Interpretacin.- La desviacin estndar total de un conjunto de datos es 30.68


4.4 Coeficiente de Variacin

Es un valor relativo de la desviacin estndar con respecto a la medida aritmtica y


nos dice que porcentaje de la media aritmtica representa la desviacin estndar.

S
V = ______ * 100
X

Ejemplo:
Calcular el coeficiente de variacin para el siguiente conjunto de datos.
5, 9, 12, 7, 15, 3

= 5 + 9 + 12 + 7 + 15 + 3 = 8.5
6
(5-8.5)2 + (9-8.5)2 + (12-8.5)2 + (7-8.5)2 + (15-8.5)2 + (3-8.5)2
S = _______________________________________________________________________________
6
S = 16.58 = 4.07
S
41

V = ______ * 100
X

V = 4.07 * 100
8.5

V = 47.88 %

Interpretacin.- La desviacin estndar para este conjunto de datos representa el


47.88% de su media aritmtica.

42

UNIDAD V
MEDIDAS DE POSICIN NO CENTRAL

5.1 Deciles

Son 9 valores en cada uno de ellos concentra el 10%.

5.2 Cuartiles

Son 3 valores que cada uno de ellos concentra el 25%


Son los valores de la variable que dividen en cuartos a los datos ordenados, cada
conjunto de datos posee tres cuartiles.
El primer cuartil Q1 es un nmero tal que cuando mucho el 25% de los datos es
menor en valor que Q1 y cuando mucho el 75% de los datos es mayor que Q1.
El segundo cuartil Q2 es la mediana.
El tercer cuartil Q3 es un nmero tal que cuando mucho el 75% de los datos es
menor en valor que Q3 y cuando mucho el 25% de los datos es mayor de Q3.

Datos clasificados en orden decreciente


25%
Q1

Q2

25% 25% 25%


Q3

5.3 Percentiles

Son 99 el que cada uno de ellos concentra el 1%.


Son los valores de la variable que dividen a un conjunto de datos ordenados en 100
subconjuntos iguales, cada conjunto de datos tiene 99 percentiles.

El k-simo percentil es un valor tal que cuando mucho k% de los datos son ms
pequeos en valor que pk y cuando mucho (100 k)% de los datos es mayor.
43

El primer cuartil y el 25avo percentil son iguales, es decir, Q1 = P25. Tambin


Q3 = P75.
La mediana, el segundo cuartil y el 50avo percentil son iguales
Datos clasificados en orden creciente
1%
Mn

P1

1%

1%

P2

1%

P3

P4

1%
P97

1%

P98

P99

1%

1%

Mx

1. El primer cuartil y el 25vo percentil son iguales, es decir, Q1 = P25. Tambin el


tercer cuartil y el 75vo percentil son iguales Q3 = P75.
2. La mediana, el segundo cuartil y el 50vo percentil son iguales,

= Q2 = P50.

As cuando se pida encontrar 50 o Q2 aplique el procedimiento de la mediana.

Ejemplo:
Con la muestra de 50 calificaciones del examen final del curso de estadstica elemental que
se observa, determinar el primer cuartil Q1, el 58vo Percentil y el Tercer cuartil Q3, del
siguiente conjunto de datos.

60

47

82

95

88

72

67

66

68

98

90

77

86

58

84

95

74

72

88

74

77

39

90

63

68

97

70

64

70

70

58

78

89

44

55

85

82

83

72

77

72

86

50

94

920

80

91

75

76

78

Ordenacin:
39

58

67

72

74

78

85

89

94

44

60

68

72

75

78

86

90

95

47

63

68

72

76

80

86

90

95

50

64

70

72

77

82

88

91

97

44

55

64

70

74

77

82

58

66

70

74

77

83

88

92

98

1) Primer cuartil
n= 50 y k=25; ya que Q1 = P25

n * k : (50)(25) = 12.5
100

100

2) Encontrar P58
n= 50 y k=58; P=58

n * k : (50)(58) = 29
100

100

3) Tercer cuartil
n= 50 y k=75; ya que Q3 = P75
Si k > 50 usar 100 k

100-75 = 25

n * k : (50)(25) = 12.5
100

100

5.4 Cuartil medio

Es el valor numrico que est a la mitad del 1er y 3er cuartil.

Cuartil medio = Q1 + Q3 = 67 + 86 = 76.5


2

45

UNIDAD VI
MEDIDAS DE FORMA

6.1 Concentracin

Mide si los valores de la variable estn ms o menos uniformemente repartidos a lo


largo de la muestra.

(p - q)
IG = ___________
P

n1+n2+n3
P = ___________

* 100

(x1n1)+(x2n2)
P = ___________________

* 100

(x1n1)+(x2n2)

El ndice de Gini puede tomar valores de 0 y 1.


IG = 0 Concentracin mnima. La muestra est uniformemente repartida a todo
un rango.
IG = 1 Concentracin mxima. Un solo valor de la muestra acumulada es del
100% de los resultados.

Ejemplo:
Calcular el ndice de Gini de una serie de datos con los sueldos de una empresa en millones
de pesetas.

46

Sueldos Frecuencia Frecuencia


(x)

Frecuencia

Frecuencia

absoluta

acumulada

relativa

relativa

x*n

p-q

simple (n)

(f.a)

simple (f.r)

acumulada

3.5

10

10

25%

25%

35,0

13,6

10,83

4.5

12

22

30%

55%

89,0

34,6

18,97

6.0

30

20%

75%

147,0

57,2

19,53

8.0

35

12.5%

87.5%

187,0

74,8

15,84

10.0

38

7.5%

95%

217,0

84,4

11,19

15.0

39

2.5%

97.5%

232,0

90,3

7,62

20.0

40

2.5%

100%

257,0

100,0

= 435,0

= 83,99

(p - q)
IG = ___________
P

83,99
IG = __________
435,0

IG = 0,19

Interpretacin.- Indica que la muestra es bastante uniforme repartida en su nivel de


concentracin no es excesivamente alto.

6.2 Asimetra

Mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma
(centro de simetra) los segmentos de curva que quedan a la derecha e izquierda son
similares.

47

Eje de
Simetra

Eje de
asimetra +

Curva simtrica

Eje de
asimetra -

Curva asimtrica negativa

Curva asimtrica positiva

Para medir el nivel de asimetra utilizaos el coeficiente de Asimetra de Fisher.

(1/n) * (x

)3

P = _______________________
((1/n) * (x

)2 * n)3/2

g1 = 0 Distribucin simtrica.- Existe la misma concentracin de valores a la derecha y


a la izquierda de la media.
g1 > 0 Distribucin asimtrica positiva.- Existe mayor concentracin de valores a la
derecha de la media de la izquierda.
g1<0 Distribucin asimtrica negativa.- Existe mayor concentracin de valores a la
izquierda de la media que su derecha.

Ejemplo:
Calcular el coeficiente de Asimetra de Fisher en la serie de datos referidos a la estatura de
un grupo de alumnos.

f.ab simple

f.ab acumulada

f.r simple

f.r acumulada

1,20

3.3%

3.3%

1,21

13.3%

16.6%

1,22

13.3%

30.0%

1,23

11

6.6%

36.6%

48

1,24

12

3.3%

40.0%

1,25

14

6.6%

46.6%

1,26

17

10.0%

56.6%

1,27

20

10.0%

66.6%

1,28

24

13.3%

80.0%

1,29

27

10.0%

90.0%

1,30

30

10.0%

100.0%

Media= 1,253

(1/n) * (x

)3

P = ______________________________
((1/n) * (x

)2 * n)3/2

(1/30) * 0,000110
P = ______________________________
((1/30) * 0,030467))3/2

P = - 0,1586

Interpretacin.- El coeficiente de Fisher muestra que el resultado -0,1586 representa la


distribucin asimtrica negativa, lo que en la grfica estar cargado a la izquierda.

6.3 Curtosis
Mide si los valores de distribucin estn ms o menos concentrados alrededor.
Es el grado de alargamiento de una curva correspondiente a una distribucin de
frecuencia (K). Existen 3 tipos de curva son:
1. Curva normal o curva de mesocrtica.- Tiene um coeficiente de curtosis K igual
a 0.263.
49

2. Curva platicrtica.- Tiene menor altura que la curva normal, su coeficiente de


curtosis es menor a 0.263.
3. Curva Leptocrtica.- Tiene mayor altura que la altura normal, su coeficiente de
curtosis es mayor a 0.263.

Curva platicurtica
Reducida concentracin

Curva mesocurtica

Curva leptocurtica

Concentracin media

Concentracin alta

Coeficiente de Curtosis.- Analiza el grado de concentracin que representan los


valores alrededor de la zona central de distribucin.

(1/n) * (x

)4 * n

P = _____________________________ -3
((1/n) * (x

)2 * n)3/2

gc = 0 Distribucin mesocrtica.
gc > 0 Distribucin leptocrtica.
gc < 0 Distribucin platicrtica.

f.ab simple

f.ab acumulada

f.r simple

f.r acumulada

1,20

3.3%

3.3%

1,21

13.3%

16.6%

1,22

13.3%

30.0%

1,23

11

6.6%

36.6%
50

1,24

12

3.3%

40.0%

1,25

14

6.6%

46.6%

1,26

17

10.0%

56.6%

1,27

20

10.0%

66.6%

1,28

24

13.3%

80.0%

1,29

27

10.0%

90.0%

1,30

30

10.0%

100.0%

(1/n) * (x

)4 * n

P = _____________________________ -3
((1/n) * (x

)2 * n)3/2

(1/30) * 0,00004967
P = _____________________________ -3
((1/30) * 0,3046667

P = -1,39

Interpretacin.- Se trata de una distribucin platicrtica.

6.4 El Teorema de Chebyshev

Establece una relacin entre el % mnimo de datos que se concentran alrededor de la


media tomando kG a la derecha y kG a la izquierda y se expresa:
Para cualquier serie de datos podemos establecer que el % mnimo de datos
comprendidos en el intervalo para cualquier serie de datos podemos establecer que el
% mnimo de datos comprendidos en el intervalo.
+ - KG

51

(1 1 ) %
K2

Para K = 2 este por ciento mnimo establecido es de 75%.


Para K = 3 este por ciento mnimo establecido es de 88%.

52

UNIDAD VII
LA CORRELACIN LINEAL

7.1 La Correlacin lineal

El objetivo es medir la intensidad de una regresin lineal entre dos variables. Se


analizan algunos diagramas de dispersin que muestran diferentes relaciones entre
variables independientes (o de entrada) y variables dependientes (o de salida).

Si crece independiente (x), no cambia dependiente (y).- No hay correlacin.


Si crece independiente (x), y crece dependiente (y).- Hay correlacin.
Correlacin Positiva.- Significa que los individuos que obtienen puntuaciones
altas en una variable, tienden a obtener puntuaciones altas en la otra.
Correlacin Negativa.- Significa que los individuos que obtienen puntuacin
baja en una variable tienden a obtener puntuacin alta en la segunda variable.

No hay correlacin

Correlacin positiva

Correlacin negativa

Correlacin positiva alta

Correlacin negativa alta

53

Correlacin positiva perfecta

Horizontal: no hay correlacin

Correlacin negativa perfecta

Vertical: no hay Correlacin

No hay correlacin lineal

54

Regresin curvilinea

No hay relacin

7.2 El coeficiente de correlacin lineal

Es la medida numrica de la intensidad de la relacin lineal entre dos variables.


El coeficiente refleja la consistencia del efecto que el cambio en una variable tiene
sobre la otra.

El valor del coeficiente de correlacin lineal ayuda a responder a la pregunta existe


una correlacin lineal entre las dos variables en consideracin?

El coeficiente de correlacin lineal (r) siempre tiene un valor entre -1 y +1


Valor -1.- Indica una correlacin negativa perfecta.
Valor +1.- Significa una correlacin positiva perfecta.

Ejemplo:
Valor + de r.- Edad y altura de un nio, a medida que aumenta de edad se vuelve ms
alto.
Valor de r.- Antigedad y valor de reventa de un automvil, a media que envejece el
automvil su reventa disminuye.
El valor de r est redefinido por la formula del coeficiente de Correlacin de Pearson.

55

7.3 Coeficiente de correlacin de Pearson

Se utiliza para medir la relacin entre dos variables; se representa como r (para
muestras) y p (ro para la poblacin).

Suma de cuadrados de XY
r = ______________________________________________________________
(suma de cuadrados de X) (suma de cuadrados de Y)

(Suma de Y)2
Suma de cuadrados de y = ________________________________
n

(Suma de X) (Suma Y)
Suma de cuadrados de XY = suma de XY - ____________________________
n

El valor de r es un nmero que varia de -1 a 1

Ejemplo:
La siguiente tabla muestra las utilidades de una compaa en millones de dlares en
siete aos de existencia, por lo que desea saber la relacin que existe entre las
utilidades dela compaa y los aos de antigedad de sta.

Ao (x)

Utilidades (y)

6.7

7.5

8.3

10.2
56

11.1

12.5

14.6

X*Y

X2

Y2

6.7

6.7

44.89

7.5

15.0

56.25

8.3

24.9

68.89

10.2

40.8

16

104.04

11.1

55.5

25

123.21

12.5

75.0

36

156.25

14.6

102.2

49

213.16

Y=70.9

XY= 319.9

X=28

X2= 140 Y2= 7696.69

Utilidades
15

12

8 Ao

SCX = x2 ((X))2
n
SCX = 140 (28)2 = 28
7
57

SCY = Y2 ((Y))2
n
SCX = 766.69 (70.9)2 = 48.57
7
SC(XY) = XY (XY)
n
SC(XY) = 319.9 (28)(70.9) = 28
7
r = _____________ Suma de cuadrados de XY _____________________
(suma de cuadrados de X) (suma de cuadrados de Y)

r = ___________36.3 _______
(28) (48.57)

r = ____ ____36.3 _____


1,359.96

r = _____36.3 ____
36.88

r = 0.98
Interpretacin.- Este valor al ser muy cercano a uno, indica que existe una fuerte
correlacin lineal, lo que significa que la utilidad de la Ca, depende casi en un 100% de
la antigedad de esta.

58

7.4 La Regresin Lineal

La regresin estudia la relacin entre dos variables (X, Y) restringiendo una de la otra,
la cual lleva el nombre de variable dependiente. El valor de la otra variable se llama
independiente.

La regresin lineal es un mtodo estadstico que se emplea para predecir el valor de


una variable Y, en funcin de otra variable X o cuando X y Y estn correlacionadas.

El anlisis de la regresin lineal encuentra la ecuacin de la recta que describe mejor


la relacin entre dos variables, una aplicacin de esta ecuacin es hacer Predicciones.

El mejor ajuste, representa el valor estimado de Y corresponde a una partcula de X, el


mtodo que se utiliza para obtener la recta de mejor ajuste es el de mnimos
cuadrados.

= mx + b

Suma de cuadrados de X-Y


m =

____________________________________________
Suma de cuadrados de X

SC (XY)

SC (XY)

XY - (X) (y)
n

59

m =

__________ ______ = _______________ = _______________________


SC (X)

SC (X)

X2 ((n)2
n

(Suma de Y) - ((pendiente)(suma de x))


b =

_________________________________________________
nmero

(S Y) ((m) (S X))
b =

__________________________________
#

Una manera para verificar el ejercicio, es trazando el diagrama de dispersin y


observar si los puntos en el diagrama sugerir si una relacin lineal es procedente al
clculo de la recta de mejor ajuste.

15

12

6
1

60

Recta de mejor ajuste.- Son los valores positivos que se encuentran en la lnea azul y
los negativos en la verde, si la recta es la de mejor ajuste, la suma de los cuadrados de
estas y las diferencias, se minimizan, se hace lo ms pequea posible.

15

12

15

12

Recta de # del mejor ajuste.- Puntos distintivos

61

Ejemplo:
Con el fin de aplicar las formulas anteriores. A continuacin se presentan los datos
correspondientes a las calificaciones obtenidas en un examen de ingreso
correspondiente a la universidad, en escala de cero al cien, y las calificaciones
promedio obtenidas en el primer semestre de la carrera de economa en la
universidad en una escala del cero al cuatro.

Examen de

Calificaciones

x*y

X2

(x * y)2

ingreso (x)

promedio (y)

40

0.8

32.0

1600

1,024

48

1.2

57.6

2304

3,317.76

53

1.5

79.5

2809

6,320.25

55

1.6

88.0

3025

7,744

62

2.0

124.0

3844

15,376

65

2.7

175.5

4225

30,800.25

66

2.1

138.6

4356

19,209.96

68

2.4

163.2

4624

26,634.24

70

2.6

182.0

4900

33,124

72

2.0

144.0

5184

20,736

75

2.7

202.5

5625

41,006.25

75

3.2

240.0

5625

57,600

76

2.9

220.4

5776

48,576.16

80

3.0

240.0

6400

57,600

86

3.5

301.0

7396

90,601

y= 34.2

xy= 2388.3

x= 991

xy= 67693

SC(XY) = XY - (X) (Y)


n
SC(XY) = 2388.3 (991)(34.2)
15
62

SC(XY) = 2388.3 2,259.48

SC(XY) = 128.82

SC(X) = X2 - (X)2
N

SC(X) = 67693 - (991)2


15
SC(X) = 67693 65,475.01

SC(X) = 2,220.93

SC (XY)
m =

__________
S( X)

128.82
m =

__________
2,220.93

m =

0.058 (TAMBIN SE CONOCE COMO PENDIENTE)

(S Y) ((m) (S X))
b = _______________________
#

(34.2) ((0.058) (991))


b = _____________________________
15

63

34.2 57.478
b = __________________
15

23.278

b = __________________
15
b = -1.55 (Tambin se le conoce como Ordenada al origen o Intercepto).

= mx + b

= 0.058 X + (-1.55)
= 0.058 X - 1.55

recta del mejor ajuste

Supongamos que las calificaciones en el examen de ingreso fueron de 45, entonces:


= mx + b
= 0.058(45) + (-1.55)
= 2.61 1.55
= 1.06
Interpretacin.- Se predice una calificacin de 1.06, cualquier prediccin basada en
rectas de mnimos cuadrados deber considerarse promedio.

64

(85, 3.38)
(78, 2.97)

(45, 1.06)
40 45 55 60 65 70 75 80 85 90

65

BIBLIOGRAFA
BIBLIOGRAFA BSICA

Anderson Sweeney, Williams (2005). Estadstica para Administracin y Economa.


Editorial Thomson. Mxico.

Chistensen (1990). Estadstica Paso a Paso. 3ra edicin. Editorial Trillas. Mxico.

Kuby, Johnson (2001). Estadstica Elemental. Editorial Math.

Quesada Lpez, Isidoro (1989). Curso de Ejercicios de Estadstica. Editorial Alhambra.


Mxico.

Robles Almeraya, Gloria (1995). Estadstica Descriptiva e Inferencial I. Teora y


Prctica. Editorial McGraw-Hill. Mxico.

Ruz Camacho, Morcillo y Garca Galisteo, Julio (2000. Curso de Probabilidad y


Estadstica. Editorial la Malaga. Manuales de Espaa.
Mate Jimenez, Sarabia (1993). Estadstica Descriptiva. Elementos tericos, cuestiones
y aplicaciones. Editorial CLAGSA.

Sote, Arturo (S.F). Principios de Estadstica. Caracas: Panapo de Venezuela.

BIBLIOGRAFA COMPLEMENTARIA

Conceptos

bsicos

de

Estadstica

(S.F).

Texto

completo

en

http://www.gestiopolis.com/recursos/experto/catsexp/pagans/eco/44/estadistica.h
tm

66

Estadstica.
Apuntes de investigacin y divulgacin cientfica.
Consultora de Servicios para Gobiernos y Estudios Legislativos.
Prolongacin Paseo de la Reforma No. 530, 2 piso,
Delegacin lvaro Obregn, C.P. 01219.
Ciudad de Mxico, Distrito Federal.
Primera edicin: marzo de 2007.

Autor: Alberto Vega Hernndez.


Las opiniones vertidas de estos apuntes son responsabilidad del autor.

Manual de distribucin gratuita, prohibida su venta.


Impreso en Mxico.
67

You might also like