Professional Documents
Culture Documents
Introducci
on
Conceptos Generales
Poblaci
on
Muestra
Variables
V. Cuantitativas
Discretas
Continuas
V. Cualitativas
Sea X la variable de interes, y sean x1 , x2 , . . . , xk los distintos valores que toma dicha variable.
Dada una muestra de n datos, definimos:
Frecuencia absoluta: ni , n de veces que se repite cada valor xi .
ni
Frecuencia relativa: fi = . Notese que 100fi es el porcentaje de veces que aparece xi
n
en la muestra.
Frecuencia absoluta acumulada de xi (una vez ordenados de menor a mayor): es el
i
P
n
umero de datos menores o iguales que xi . Ni = n1 + . . . + ni =
nk la frecuencia
k=1
absoluta acumulada de xi .
i
P
fk =
k=1
2.1
Ni
.
n
Tablas de distribuci
on de frecuencias:
Fr. abs.
ni
n1
..
.
Fr. rel.
fi
f1
..
.
xk
nk
n
fk
1
Nk = n
Fk = 1
Marca clase
xi
x1
..
.
Fr. abs.
ni
n1
..
.
Fr. rel.
fi
f1
..
.
[Lk1 , Lk )
xk
nk
n
fk
1
Nk
densidad datos
di = ni /ai
d1
..
.
dk
Representaciones Gr
aficas
Variables cualitativas:
Diagrama de rectangulos: cada rectangulo representa cada uno de los valores que toma la
variable y su altura es la frecuencia correspondiente.
Diagramas de sectores: cada sector representa cada uno de los valores que toma la variable
y su angulo es proporcional a la frecuencia correspondiente.
10%
NO
NS/NC
5%
S
85%
5%
NS/NC
Frecuencia
200
180
160
140
120
100
80
60
40
20
12
14
15
16
17
18
19
20
21
Nivel educativo
hi=ni/ai
L0
L1 L2
L3
L4
L5
L6
Pictogramas y Cartogramas.
Medidas de posici
on, dispersi
on y forma
4.1
Medidas de posici
on
Las hay de tendencia central: media, moda y mediana; y de tendencia no central: cuantiles.
4.1.1
Media aritm
etica (X)
k
P
(xi X)ni = 0.
i=1
3. Y = a + bX = a + bX.
3
5. Media ponderada: X =
x1 w1 + x2 w2 + . . . + xk wk
.
w1 + w2 + . . . + wk
6. Media en subpoblaciones: X =
4.1.2
X 1 N1 + X 2 N2 + . . . + X L NL
.
N1 + N2 + . . . + NL
Moda (Mo)
Es el valor de la variable que mas veces se repite, el mas frecuente. Calculo de la moda:
Datos no agrupados: valor de la variable de mayor frecuencia absoluta o relativa.
Datos agrupados: se busca en el intervalo modal, el de mayor densidad de datos.
di+1
ai .
Mo = Li1 +
di+1 + di1
4.1.3
Mediana (Me)
Dada una distribucion de frecuencias (xi , ni ) con valores ordenados de menor a mayor, llamamos
mediana, Me, al valor de la variable que divide la distribucion de frecuencias en dos partes
iguales.
Calculo de la mediana:
Datos no agrupados: se busca la primera frecuencia acumulada tal que Ni
n
:
2
n
2
Ni1
ai = Li1 +
ni
1
2
n
. La mediana se
2
Fi1
ai .
fi
Datos agrupados: el intervalo del cuantil sera el primero verificando Ni pn. El cuantil
pn Ni1
p Fi1
se calcula con la siguiente formula: xp = Li1 +
ai = Li1 +
ai .
ni
fi
4.2
4.2.1
Medidas de Dispersi
on
Medidas de Dispersi
on Absolutas
i=1...k
i=1...k
k
1P
2
x2i ni X .
n i=1
2
2
Sn,aX+b
= a2 Sn,X
y por tanto Sn,aX+b = aSn,X .
4.2.2
Medidas de Dispersi
on relativas
Tipificaci
on
4.3
X
es su tipificada.
Medidas de Forma
Estan relacionadas con la representacion grafica de la distribucion. Vamos a estudiar las medidas
de asimetra y de curtosis (o apuntamiento).
4.3.1
Medidas de asimetra
k
1P
ni (xi X)3
n i=1
Coeficiente de asimetra de Fisher g1 =
:
3
Sn,X
Asimetra positiva
4.3.2
Asimetra negativa
k
1P
ni (xi X)4
n
Coeficiente de curtosis de Fisher g2 = i=1 4
3. Se compara el apuntamiento de la
Sn,X
distribucion con el de una normal estandar cuyo apuntamiento es 3.
0,60
g2>0
g2=0
g2<0
0,40
0,20
0,00
-6,00
-4,00
-2,00
0,00
2,00
4,00
6,00
5.1
Introducci
on
Una variable bidimensional la denotamos por (X,Y). Se trata de un par ordenado, donde X, Y
son las dos variables.
Los valores vienen expresados por (xi , yj ) con xi X, yj Y para todo i = 1, . . . , k y
j = 1, . . . , h.
5.2
Tablas de frecuencias
X/Y
x1
...
xi
...
xk
T otal
y1
n11
...
ni1
...
nk1
n.1
...
...
...
...
...
...
...
yj
n1j
...
nij
...
nkj
n.j
nij
. 100fij es el porcentaje de veces que se
N
. . . yh
. . . n1h
... ...
. . . nih
... ...
. . . nkh
. . . n.h
T otal
n1.
...
ni.
...
nk.
n
En la u
ltima columna y en la u
ltima fila se escriben los totales por columna y fila respectivamente. Se denominan frecuencias marginales: ni. es el n
umero total de veces que se
ha presentado el valor xi con independencia de los valores que tome la variable Y , y n.j es el
n
umero total de veces que se presento el valor yj con independencia de los valores que toma X.
Los distintos valores xi pueden aparecer agrupados en intervalos del tipo (Li1 , Li ] y los
valores yj en intervalos (Lj1 , Lj ].
5.3
5.3.1
La distribucion marginal de una de las variables viene definida por los valores que toma dicha
variable, independientemente de los valores que tome la otra variable.
Las distribuciones marginales de X e Y respectivamente son:
X ni. fi.
x1 n1. f1.
..
..
..
.
.
.
xk nk. fk.
Y n.j f.j
y1 n.1 f.1
..
..
..
.
.
.
yh n.h f.h
7
5.3.2
Distribuciones condicionadas
Se trata de estudiar la distribucion de una de las variables cuando la otra toma uno o varios valores. Por ejemplo, podemos calcular la distribucion de X condicionada a que Y = yj
(X/Y = yj ), o bien la distribucion de Y condicionada a que X = xi (Y /X = xi ):
5.3.3
X/Y = yj
ni /Y = yj
x1
n1j
..
.
..
.
xk
nkj
Y /X = xi
nj /X = xi
y1
..
.
ni1
..
.
yh
nih
fi /Y = yj
n1j
f1/Y =yj =
=
n.j
..
.
n1j
fk/Y =yj =
=
n.j
fj /X = xi
ni1
=
f1/X=xi =
ni.
..
.
nih
fh/X=xi =
=
ni.
f1j
f.j
fkj
f.j
fi1
fi.
fih
fi.
Independencia Estadstica
Dos variables X, Y se dice que son independientes estadsticamente si fi/Y =yj = fi. para
cualquier par de valores (xi , yj ). Esta expresion es equivalente a: fij = fi. f.j para todo
ni. n.j
para todo par (xi , yj ).
par (xi , yj ) o nij =
n
Medidas para estudiar la posible relacion lineal entre las variables:
Covarianza: SXY =
h P
k
1P
(xi X)(yj Y )nij .
n i=1 j=1
Propiedades:
1. SXY > 0 indica una relacion directa, SXY < 0 indica una relacion inversa, SXY = 0 indica
una ausencia de relacion lineal.
h
1 P Pk
xi yj nij X Y .
2. SXY =
n i=1 j=1
3. SaX+b,cY +d = acSXY .
4. Depende de las unidades de medida y no esta acotada.
Coeficiente de correlaci
on de Pearson: rXY = r =
SXY
.
Sn,X Sn,Y
Es una medida adimensional que mide el grado de dependencia lineal entre las dos variables.
Toma valores en el intervalo [1, 1]. Un valor de r cercano o igual a 0 implica poca o ninguna
relacion lineal entre X e Y (si r = 0 se dice que ambas variables estan incorreladas), mientras
que cuanto mas se acerque a 1 o a -1, mas fuerte sera la relacion lineal entre X e Y , directa o
inversa respectivamente.