Professional Documents
Culture Documents
1. CORRELACION...............................................................................................2
2. DEFINICIN DE CORRELACIN LINEAL......................................................3
2.1. Covarianza.................................................................................................5
2.1.1. Ejemplos..............................................................................................6
3. Coeficiente de correlacin lineal......................................................................8
2.2. Correlacin de Pearson............................................................................11
2.2.1. Intervalo de confianza del coeficiente de correlacin........................13
4. Anlisis de Correlacin Lineal........................................................................15
CUESTIONARIO................................................................................................18
BIBLIOGRAFA...................................................................................................19
CORRELACIN LINEAL
1. CORRELACION
Hasta este momento hemos relacionado dos variables que suponemos de
antemano tienen una relacin entre s, esto es, cualquier cambio que
provoquemos en la variable independiente, trae como consecuencia un
cambio en la variable dependiente.
Ahora bien, puede haber casos en que las dos variables, X y Y, sean
aleatorias; ninguna tiene efecto sobre la otra, pero sera apropiado relacionar
dichas variables (siempre que sea posible).
Podemos relacionar dichas variables mediante el modelo de regresin lineal
simple
Y 0 1 X
Aunque ste no nos dice nada sobre la existencia de la relacin entre las
dos variables.
Es el coeficiente de correlacin el que va a determinar si las dos variables
estn relacionadas entre s.
El coeficiente de correlacin se representa mediante el smbolo
define mediante:
(rho). Se
xy
x y
donde
xy2
es la covarianza entre X y Y.
x
y
Aqu vemos que el coeficiente de correlacin est relacionado con 1 sin que
esto represente que se trate de conceptos iguales.
Los estimadores de los parmetros del modelo de regresin son los mismos
calculados en temas anteriores:
0 Y 1 X
1
Sxy
Sxx
Sxy
Sxx Syy 12
Como
Sxy
1
Sxx
r2
r2
2
S XY
Sxx Syy
r2
Sxy Sxy
Sxx Syy
1 Sxy
Syy
1 Sxy SSR
r2
: entonces:
SSR
R2
Syy
SSR
R2
Syy
Cov ( X , Y )
1 r=
=
SX SY
( X t X )( Y tY )
t =1
(
n
t =1
X t X )
t =1
+1
2
Y t Y )
2.1. Covarianza
La covarianza (cov(x,y)) de dos variables es un indicador de la relacin
entre ellas. Este parmetro puede utilizarse para medir la relacin entre
dos variables solo si estn expresadas en la misma escala o unidad de
medida.
La covarianza de una variable bidimensional es la media aritmtica de
los productos de las desviaciones de cada una de las variables respecto
a sus medias respectivas.
La covarianza se representa por s x y o x y .
En las distribuciones bidimensionales se emplea otro estadstica que
refleja el promedio de los productos de las desviaciones de cada una de
las variables respecto a su media. Se llama covarianza de X e Y
xy Cov( X , Y ) x x y y
Cuando los datos vienen dados en una tabla simple (datos aparecidos):
xy Cov x, y
i l
i xi y i
xy
xy x y x y
La covarianza indica el sentido de la correlacin entre las variables
Si xy > 0 la correlacin es directa.
Si xy < 0 la correlacin es inversa.
La covarianza presenta como inconveniente, el hecho de que su valor
depende de la escala elegida para los ejes.
Es decir, la covarianza variar si expresamos la altura en metros o en
centmetros. Tambin variar si el dinero lo expresamos en euros o en
dlares.
2.1.1.
Ejemplos
Las notas de 12 alumnos de una clase en Matemticas y Fsica
son las siguientes:
Matemtica
6
Fsicas
s
2
3
4
4
5
6
6
9
9
8
10
10
1
3
2
4
4
4
6
4
6
7
9
10
Yi
1
3
2
4
4
4
6
4
6
7
9
10
60
Xi- Yi
2
9
8
16
20
24
36
28
42
56
70
100
431
431
6.5=5.72
12
Los valores de dos variables X e Y se distribuyen segn la tabla
siguiente:
Y/X
1
2
3
0
2
1
2
7
2
1
4
5
4
3
2
0
x =
xy =
3.
yi
1
2
3
1
2
3
1
2
fi
2
1
2
1
4
5
3
2
20
xi-fi
0
0
0
2
8
10
12
8
40
yi-fi
2
2
6
1
8
15
3
4
41
xi-yi-fi
0
0
0
2
16
30
12
16
96
40
41
=2 y = =2.05
20
20
96
22.05=0.3
20
xy
x y
Propiedades
1. El coeficiente de correlacin no vara al hacerlo la escala de medicin.
Es decir, si expresamos la altura en metros o en centmetros el
coeficiente de correlacin no vara.
2. El signo del coeficiente de correlacin es el mismo que el de
la covarianza.
Si la covarianza es positiva, la correlacin es directa.
Si la covarianza es negativa, la correlacin es inversa.
8
Ejemplos
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las
siguientes:
Matemtica
s
2
3
4
4
5
6
6
9
9
8
10
10
Fsicas
1
3
2
4
4
4
6
4
6
7
9
10
Xi
2
3
4
4
5
6
6
7
7
8
10
10
72
Yi
1
3
2
4
4
4
6
4
6
7
9
10
60
Xi2
4
9
16
16
25
36
36
49
49
64
100
100
504
Xi- Yi
2
9
8
16
20
24
36
28
42
56
70
100
431
Yi2
1
7
4
16
16
16
36
16
36
49
81
100
380
Y/X
1
2
3
10
0
2
1
2
2
1
4
5
4
3
2
0
Xi
0
0
0
2
2
2
4
4
Yi
1
2
3
1
2
3
1
2
x =
fi
2
1
2
1
4
5
3
2
20
Xi- fi
0
0
0
2
8
10
12
8
40
Xi2- fi
0
0
0
4
16
20
48
32
120
Yi- fi
2
2
6
1
8
15
3
4
41
Yi2- fi
2
4
18
1
16
45
3
8
97
Xi-Yi-Fi
0
0
0
2
16
30
12
16
76
40
41
=2 y = =2 .05
20
20
2x =
120 2
97
2 =2 2y = 2.052=0.65
20
20
x = 2=1.41 y = 0.65=0.81
xy =
r=
76
22.05=0.3
20
0.3
=0.26
1.410.81
Siendo:
XY la covarianza de (X,Y)
X y Y las desviaciones tpicas de las distribuciones marginales.
El valor del ndice de correlacin vara en el intervalo [-1, +1]:
12
r=
Zx Z y
n1
Este estadstico, refleja el grado de relacin lineal que existe entre dos
variables. El resultado numrico flucta entre los rangos de +1 a -1.
Tras
1r 2
Error estandard de r =
n2
Si el valor del r calculado (en el ejemplo previo r = 0.885) supera al valor
del error estndar multiplicado por la t de Student con n-2 grados de
libertad, diremos que el coeficiente de correlacin es significativo.
El nivel de significacin viene dado por la decisin que adoptemos al
buscar el valor en la tabla de la t de Student.
En el ejemplo previo con 20 nios, los grados de libertad son 18 y el
valor de la tabla de la t de student para una seguridad del 95% es de
2.10 y para un 99% de seguridad el valor es 2.88.
Error estandard de r =
10.8852
=0.109
202
13
Como quiera que r = 0.885 > a 2.10 * 0.109 = 2.30 podemos asegurar
que el coeficiente de correlacin es significativo (p<0.05). Si aplicamos el
valor obtenido en la tabla de la t de Student para una seguridad del 99%
(t = 2.88) observamos que como r = 0.885 sigue siendo > 2.88 * 0.109 =
0.313 podemos a su vez asegurar que el coeficiente es significativo
(p<0.001). Este proceso de razonamiento es vlido tanto para muestras
pequeas como para muestras grandes. En esta ltima situacin
podemos comprobar en la tabla de la t de student que para una
seguridad del 95% el valor es 1.96 y para una seguridad del 99% el valor
es 2.58.
2.2.1.
1+r
1r
14
Presentacin de la correlacin
15
Interpretacin de la correlacin
El coeficiente de correlacin como previamente se indic oscila
entre 1 y +1 encontrndose en medio el valor 0 que indica que
no existe asociacin lineal entre las dos variables a estudio. Un
coeficiente de valor reducido no indica necesariamente que no
exista correlacin ya que las variables pueden presentar una
relacin no lineal como puede ser el peso del recin nacido y el
tiempo de gestacin. En este caso el r infraestima la asociacin al
medirse linealmente. Los mtodos no paramtrico estaran mejor
utilizados en este caso para mostrar si las variables tienden a
elevarse conjuntamente o a moverse en direcciones diferentes.
16
17
: Perfecta relacin lineal directa entre las variables. Todos los puntos
xy
x . y
Cov( x , y ) Cov( X , Y )
Sx . Sy
V( x ) . V( y )
18
x y
x i yi
r = i =1
=
2
2
x y
x i yi
- i =1
i =1
xi
n
-
i =1
i =1
x i
2 i =1
yi
n
2 i =1
.
yi
n
i =1
by / x . bx / y
n
x y
i =1
b x/y =
n
2
y
i =1
Siendo:
n
x y
Prueba de hiptesis para el coeficiente de correlacin poblacional
i =1
b y/x =
n
La prueba de significancia
consiste en probar la hiptesis nula que el
x2
coeficiente de correlacin poblacional es cero, contra la alternativa que es
i =1
0
0
tr
r
Sr
1 r 2
Sr
n2
CUESTIONARIO
1.
2.
3.
4.
5.
BIBLIOGRAFA
http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html
Bouza Herrera, Carlos N. y Sistachs Vega, Vivian: Estadstica, Teora Bsica
y Ejercicios. Editorial Flix Varela, La Habana, 2004
20
21