You are on page 1of 9

TEMA 1: Estadstica Descriptiva

Introducci
on

Conceptos Generales
Poblaci
on
Muestra
Variables
V. Cuantitativas

Discretas
Continuas

V. Cualitativas

Distribuciones unidimensionales de frecuencias

Sea X la variable de interes, y sean x1 , x2 , . . . , xk los distintos valores que toma dicha variable.
Dada una muestra de n datos, definimos:
Frecuencia absoluta: ni , n de veces que se repite cada valor xi .
ni
Frecuencia relativa: fi = . Notese que 100fi es el porcentaje de veces que aparece xi
n
en la muestra.
Frecuencia absoluta acumulada de xi (una vez ordenados de menor a mayor): es el
i
P
n
umero de datos menores o iguales que xi . Ni = n1 + . . . + ni =
nk la frecuencia
k=1

absoluta acumulada de xi .

Frecuencia relativa acumulada: Fi = f1 + . . . + fi =

i
P

fk =

k=1

2.1

Ni
.
n

Tablas de distribuci
on de frecuencias:

Variables cuantitativas con los datos sin agrupar.


Valores variable
xi
x1
..
.

Fr. abs.
ni
n1
..
.

Fr. rel.
fi
f1
..
.

Fr. abs. acum.


Ni
N1
..
.

Fr. rel. acum.


Fi
F1
..
.

xk

nk
n

fk
1

Nk = n

Fk = 1

Variables cualitativas: la tabla es equivalente a la anterior aunque si no hay relacion de


orden entre los valores de la variable se eliminan las columnas de frecuencias acumuladas.
Variables cuantitativas continuas con datos agrupados en intervalos de clase: [Li1 , Li ).
Tomamos como representante del intervalo a su punto medio, la marca de clase, xi =
Li1 + Li
. La densidad de datos di de cada clase es el n
umero de datos por unidad de
2
amplitud.
Int. clase
[Li1 , Li )
[L0 , L1 )
..
.

Marca clase
xi
x1
..
.

Fr. abs.
ni
n1
..
.

Fr. rel.
fi
f1
..
.

Fr. abs. ac.


Ni
N1
..
.

[Lk1 , Lk )

xk

nk
n

fk
1

Nk

Fr. rel. ac. amplitud


Fi
ai
F1
a1
..
..
.
.
Fk
ak

densidad datos
di = ni /ai
d1
..
.
dk

Representaciones Gr
aficas

Variables cualitativas:
Diagrama de rectangulos: cada rectangulo representa cada uno de los valores que toma la
variable y su altura es la frecuencia correspondiente.
Diagramas de sectores: cada sector representa cada uno de los valores que toma la variable
y su angulo es proporcional a la frecuencia correspondiente.

Mantendr el Real Club Celta la categora?


85%
NO
10%

10%

NO

NS/NC
5%

S
85%

5%
NS/NC

Variables cuantitativas discretas:


Diagrama de barras: En el eje de abscisas se sit
uan los diferentes valores de la variable,
construyendo sobre estos unas barras de altura igual a la frecuencia de cada valor.
Tambien se puede usar el diagrama de sectores cuando la variable no tome muchos valores
diferentes.

Frecuencia
200
180
160
140
120
100
80
60
40
20

12

14

15

16

17

18

19

20

21

Nivel educativo

Variables cuantitativas continuas:


Histograma: en el eje X se sit
uan los intervalos clase, y sobre cada uno de ellos se construye
un rectangulo cuya base coincide con el intervalo y la altura es igual a a densidad de datos del
mismo.
h1=n1/a1

hi=ni/ai

L0

L1 L2

L3

L4

L5

L6

Pictogramas y Cartogramas.

Medidas de posici
on, dispersi
on y forma

4.1

Medidas de posici
on

Las hay de tendencia central: media, moda y mediana; y de tendencia no central: cuantiles.
4.1.1

Media aritm
etica (X)

Es el cociente entre la suma de todos los valores observados de la variable y el n


umero total de
k
k
P
1P
xi fi .
xi ni =
observaciones: X =
n i=1
i=1
Propiedades:
1. min xi X max xi .
2.

k
P

(xi X)ni = 0.

i=1

3. Y = a + bX = a + bX.
3

4. Si la distribucion de frecuencias es simetrica respecto a un valor c, entonces X = c.


w

5. Media ponderada: X =

x1 w1 + x2 w2 + . . . + xk wk
.
w1 + w2 + . . . + wk

6. Media en subpoblaciones: X =
4.1.2

X 1 N1 + X 2 N2 + . . . + X L NL
.
N1 + N2 + . . . + NL

Moda (Mo)

Es el valor de la variable que mas veces se repite, el mas frecuente. Calculo de la moda:
Datos no agrupados: valor de la variable de mayor frecuencia absoluta o relativa.
Datos agrupados: se busca en el intervalo modal, el de mayor densidad de datos.
di+1
ai .
Mo = Li1 +
di+1 + di1
4.1.3

Mediana (Me)

Dada una distribucion de frecuencias (xi , ni ) con valores ordenados de menor a mayor, llamamos
mediana, Me, al valor de la variable que divide la distribucion de frecuencias en dos partes
iguales.
Calculo de la mediana:
Datos no agrupados: se busca la primera frecuencia acumulada tal que Ni

n
:
2

1. Si Ni > n/2, entonces Me = xi .


xi + xi+1
2. Si Ni = n/2, entonces Me =
.
2
Datos agrupados: el intervalo mediano es el primero verificando Ni
calcula con la siguiente formula: Me = Li1 +
4.1.4

n
2

Ni1
ai = Li1 +
ni

1
2

n
. La mediana se
2
Fi1
ai .
fi

Cuantil de orden p con 0 < p < 1 (xp )

Es aquel valor que deja a lo sumo pn observaciones a su izquierda y (1 p)n observaciones a su


derecha. Destacamos en particular los cuantiles siguientes:
1. Cuartiles (Q1 , Q2 , Q3 ): dividen a la distribucion el cuatro partes iguales.
2. Deciles (D1 , D2 , . . . , D9 ): dividen a la distribucion en diez partes iguales.
3. Percentiles (P1 , P2 , . . . , P99 ): dividen a la distribucion en cien partes iguales.
Calculo del cuantil de orden p:
Datos no agrupados: se busca la primera frecuencia acumulada tal que Ni pn:
1. Si Ni > pn, entonces xp = xi .
xi + xi+1
.
2. Si Ni = pn, entonces xp =
2
4

Datos agrupados: el intervalo del cuantil sera el primero verificando Ni pn. El cuantil
pn Ni1
p Fi1
se calcula con la siguiente formula: xp = Li1 +
ai = Li1 +
ai .
ni
fi

4.2
4.2.1

Medidas de Dispersi
on
Medidas de Dispersi
on Absolutas

Estas medidas llevan unidades asociadas.


Rango o recorrido: es la diferencia entre el mayor y el menor valor de la muestra: Re =
max xi min xi .

i=1...k

i=1...k

Recorrido Intercuartlico: es la diferencia existente el tercer cuartil y el primero: RI =


Q3 Q1 .
k
k
2
2
P
1P
2
xi X fi .
Varianza: mide la dispersion respecto a la media: Sn,X
=
xi X ni =
n i=1
i=1
q
2
Desviaci
on tpica: raiz cuadrada de la varianza Sn,X = Sn,X
.
Propiedades de la varianza y la desviacion tpica:
2
NUNCA son negativas Sn,X
0, Sn,X 0.
2
Sn,X
=

k
1P
2
x2i ni X .
n i=1

2
2
Sn,aX+b
= a2 Sn,X
y por tanto Sn,aX+b = aSn,X .

4.2.2

Medidas de Dispersi
on relativas

Estas medidas no llevan unidades asociadas, son adimensionales.


Coeficiente de variaci
on de Pearson: es el cociente entre la desviacion tpica y la media:
Sn,X
.
CV =
X
4.2.3

Tipificaci
on

Dada una variable X con media , y varianza 2 , la nueva variable Z =


Z es adimensional, tiene media 0 y varianza 1.

4.3

X
es su tipificada.

Medidas de Forma

Estan relacionadas con la representacion grafica de la distribucion. Vamos a estudiar las medidas
de asimetra y de curtosis (o apuntamiento).

4.3.1

Medidas de asimetra

k
1P
ni (xi X)3
n i=1
Coeficiente de asimetra de Fisher g1 =
:
3
Sn,X

g1 > 0: asimetra positiva o por la derecha.


g1 < 0: asimetra negativa o por la izquierda.
g1 = 0: la distribucion es simetrica.

Asimetra positiva

4.3.2

Asimetra negativa

Medidas de apuntamiento o curtosis

k
1P
ni (xi X)4
n
Coeficiente de curtosis de Fisher g2 = i=1 4
3. Se compara el apuntamiento de la
Sn,X
distribucion con el de una normal estandar cuyo apuntamiento es 3.

g2 > 0: Distribucion leptoc


urtica: mas apuntamiento que la distribucion normal.
g2 = 0: Distribucion mesoc
urtica: apuntamiento equivalente a la distribucion normal.
g2 < 0: Distribucion platic
urtica: menos apuntamiento que la distribucion normal.
0,80

0,60

g2>0
g2=0
g2<0

0,40

0,20

0,00

-6,00

-4,00

-2,00

0,00

2,00

4,00

6,00

Distribuciones bidimensionales de frecuencias

5.1

Introducci
on

Una variable bidimensional la denotamos por (X,Y). Se trata de un par ordenado, donde X, Y
son las dos variables.
Los valores vienen expresados por (xi , yj ) con xi X, yj Y para todo i = 1, . . . , k y
j = 1, . . . , h.

5.2

Tablas de frecuencias

Frecuencia absoluta del par (xi , yj ): nij es el n


umero de veces que se presenta conjuntamente el par de valores (xi , yj ).
Frecuencia relativa del par (xi , yj ): fij =
presenta conjuntamente el par (xi , yj ).

X/Y
x1
...
xi
...
xk
T otal

y1
n11
...
ni1
...
nk1
n.1

...
...
...
...
...
...
...

yj
n1j
...
nij
...
nkj
n.j

nij
. 100fij es el porcentaje de veces que se
N

. . . yh
. . . n1h
... ...
. . . nih
... ...
. . . nkh
. . . n.h

T otal
n1.
...
ni.
...
nk.
n

En la u
ltima columna y en la u
ltima fila se escriben los totales por columna y fila respectivamente. Se denominan frecuencias marginales: ni. es el n
umero total de veces que se
ha presentado el valor xi con independencia de los valores que tome la variable Y , y n.j es el
n
umero total de veces que se presento el valor yj con independencia de los valores que toma X.
Los distintos valores xi pueden aparecer agrupados en intervalos del tipo (Li1 , Li ] y los
valores yj en intervalos (Lj1 , Lj ].

5.3
5.3.1

Distribuciones marginales y condicionadas.


Distribuciones marginales

La distribucion marginal de una de las variables viene definida por los valores que toma dicha
variable, independientemente de los valores que tome la otra variable.
Las distribuciones marginales de X e Y respectivamente son:
X ni. fi.
x1 n1. f1.
..
..
..
.
.
.
xk nk. fk.

Y n.j f.j
y1 n.1 f.1
..
..
..
.
.
.
yh n.h f.h
7

5.3.2

Distribuciones condicionadas

Se trata de estudiar la distribucion de una de las variables cuando la otra toma uno o varios valores. Por ejemplo, podemos calcular la distribucion de X condicionada a que Y = yj
(X/Y = yj ), o bien la distribucion de Y condicionada a que X = xi (Y /X = xi ):

5.3.3

X/Y = yj

ni /Y = yj

x1

n1j

..
.

..
.

xk

nkj

Y /X = xi

nj /X = xi

y1
..
.

ni1
..
.

yh

nih

fi /Y = yj
n1j
f1/Y =yj =
=
n.j
..
.
n1j
fk/Y =yj =
=
n.j
fj /X = xi
ni1
=
f1/X=xi =
ni.
..
.
nih
fh/X=xi =
=
ni.

f1j
f.j
fkj
f.j
fi1
fi.
fih
fi.

Independencia Estadstica

Dos variables X, Y se dice que son independientes estadsticamente si fi/Y =yj = fi. para
cualquier par de valores (xi , yj ). Esta expresion es equivalente a: fij = fi. f.j para todo
ni. n.j
para todo par (xi , yj ).
par (xi , yj ) o nij =
n
Medidas para estudiar la posible relacion lineal entre las variables:
Covarianza: SXY =

h P
k
1P
(xi X)(yj Y )nij .
n i=1 j=1

Propiedades:
1. SXY > 0 indica una relacion directa, SXY < 0 indica una relacion inversa, SXY = 0 indica
una ausencia de relacion lineal.

 h
1 P Pk
xi yj nij X Y .
2. SXY =
n i=1 j=1
3. SaX+b,cY +d = acSXY .
4. Depende de las unidades de medida y no esta acotada.
Coeficiente de correlaci
on de Pearson: rXY = r =

SXY
.
Sn,X Sn,Y

Es una medida adimensional que mide el grado de dependencia lineal entre las dos variables.
Toma valores en el intervalo [1, 1]. Un valor de r cercano o igual a 0 implica poca o ninguna
relacion lineal entre X e Y (si r = 0 se dice que ambas variables estan incorreladas), mientras
que cuanto mas se acerque a 1 o a -1, mas fuerte sera la relacion lineal entre X e Y , directa o
inversa respectivamente.

rXY > 0: Y aumenta cuando aumenta X

rXY < 0: Y disminuye cuando aumenta X

rXY = 1: relacion positiva perfecta

rXY = 1: relacion negativa perfecta

rXY cercano a 0: poca o ninguna relacion


lineal entre X e Y

rXY cercano a 0: poca o ninguna relacion lineal


entre X e Y , pero clara relacion cuadratica

You might also like