You are on page 1of 21

NDICE

1. CORRELACION...............................................................................................2
2. DEFINICIN DE CORRELACIN LINEAL......................................................3
2.1. Covarianza.................................................................................................5
2.1.1. Ejemplos..............................................................................................6
3. Coeficiente de correlacin lineal......................................................................8
2.2. Correlacin de Pearson............................................................................11
2.2.1. Intervalo de confianza del coeficiente de correlacin........................13
4. Anlisis de Correlacin Lineal........................................................................15
CUESTIONARIO................................................................................................18
BIBLIOGRAFA...................................................................................................19

CORRELACIN LINEAL
1. CORRELACION
Hasta este momento hemos relacionado dos variables que suponemos de
antemano tienen una relacin entre s, esto es, cualquier cambio que
provoquemos en la variable independiente, trae como consecuencia un
cambio en la variable dependiente.
Ahora bien, puede haber casos en que las dos variables, X y Y, sean
aleatorias; ninguna tiene efecto sobre la otra, pero sera apropiado relacionar
dichas variables (siempre que sea posible).
Podemos relacionar dichas variables mediante el modelo de regresin lineal
simple
Y 0 1 X
Aunque ste no nos dice nada sobre la existencia de la relacin entre las
dos variables.
Es el coeficiente de correlacin el que va a determinar si las dos variables
estn relacionadas entre s.
El coeficiente de correlacin se representa mediante el smbolo

define mediante:

(rho). Se

xy
x y

donde

xy2

es la covarianza entre X y Y.

El coeficiente de correlacin tambin se puede definir mediante

x
y

Aqu vemos que el coeficiente de correlacin est relacionado con 1 sin que
esto represente que se trate de conceptos iguales.

Los estimadores de los parmetros del modelo de regresin son los mismos
calculados en temas anteriores:

0 Y 1 X
1

Sxy
Sxx

En tanto que el estimador del coeficiente de correlacin se puede calcular


mediante:
r

Sxy

Sxx Syy 12

Ahora bien, si elevamos al cuadrado ambos lados de la igualdad:

Como

Sxy
1
Sxx

r2

r2

2
S XY
Sxx Syy

r2

Sxy Sxy
Sxx Syy

1 Sxy
Syy

1 Sxy SSR

r2
: entonces:

SSR
R2
Syy

Concluimos que el coeficiente de correlacin es igual a la raz cuadrada del


coeficiente de determinacin
r

SSR
R2
Syy

Vemos tambin que el coeficiente de correlacin est relacionado con el


coeficiente de determinacin, aunque son conceptos totalmente diferentes.
2. DEFINICIN DE CORRELACIN LINEAL
3

En ocasiones nos puede interesar estudiar si existe o no algn tipo de


relacin entre dos variables aleatorias. As, por ejemplo, podemos
preguntarnos si hay alguna relacin entre las notas de la asignatura
Estadstica I y las de Matemticas I. Una primera aproximacin al problema
consistira en dibujar en el plano R2 un punto por cada alumno: la primera
coordenada de cada punto sera su nota en estadstica, mientras que la
segunda sera su nota en matemticas. As, obtendramos una nube de
puntos la cual podra indicarnos visualmente la existencia o no de algn tipo
de relacin (lineal, parablica, exponencial, etc.) entre ambas notas.
Otro ejemplo, consistira en analizar la facturacin de una empresa en un
periodo de tiempo dado y de cmo influyen los gastos de promocin y
publicidad en dicha facturacin. Si consideramos un periodo de tiempo de 10
aos, una posible representacin sera situar un punto por cada ao de
forma que la primera coordenada de cada punto sera la cantidad en euros
invertidos en publicidad, mientras que la segunda sera la cantidad en euros
obtenidos de su facturacin. De esta manera, obtendramos una nube de
puntos que nos indicara el tipo de relacin existente entre ambas variables.
En particular, nos interesa cuantificar la intensidad de la relacin lineal entre
dos variables. El parmetro que nos da tal cuantificacin es el coeficiente de
correlacin lineal de Pearson r, cuyo valor oscila entre 1 y +1:
n

Cov ( X , Y )
1 r=
=
SX SY

( X t X )( Y tY )
t =1

(
n

t =1

X t X )

t =1

+1
2

Y t Y )

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1


cuando la correlacin tiende a ser lineal directa (mayores valores de X
significan mayores valores de Y), y se aproxima a 1 cuando la correlacin
tiende a ser lineal inversa.
Es importante notar que la existencia de correlacin entre variables no
implica causalidad.
Atencin!: si no hay correlacin de ningn tipo entre dos v.a., entonces
tampoco habr correlacin lineal, por lo que r = 0. Sin embargo, el que
ocurra r = 0 slo nos dice que no hay correlacin lineal, pero puede que la
haya de otro tipo.
El siguiente diagrama resume el anlisis del coeficiente de correlacin entre
dos variables:

Bajo el concepto de correlacin se recogen varios procedimientos e


indicadores estadsticos utilizados para determinar el grado de asociacin
entre dos variables; el ms sencillo de ellos es el de correlacin lineal que
est basado en la comparacin de la varianza asociada de dos variables
(covarianza) y las desviaciones estndar de cada uno a travs del clculo
del coeficiente r de Pearson.

2.1. Covarianza
La covarianza (cov(x,y)) de dos variables es un indicador de la relacin
entre ellas. Este parmetro puede utilizarse para medir la relacin entre
dos variables solo si estn expresadas en la misma escala o unidad de
medida.
La covarianza de una variable bidimensional es la media aritmtica de
los productos de las desviaciones de cada una de las variables respecto
a sus medias respectivas.
La covarianza se representa por s x y o x y .
En las distribuciones bidimensionales se emplea otro estadstica que
refleja el promedio de los productos de las desviaciones de cada una de
las variables respecto a su media. Se llama covarianza de X e Y

xy Cov( X , Y ) x x y y

Cuando los datos vienen dados en una tabla simple (datos aparecidos):

xy Cov x, y

i l

i xi y i

xy

Contamos con una frmula desarrollada similar a la del clculo de la


varianza, el teorema de konig:

xy x y x y
La covarianza indica el sentido de la correlacin entre las variables
Si xy > 0 la correlacin es directa.
Si xy < 0 la correlacin es inversa.
La covarianza presenta como inconveniente, el hecho de que su valor
depende de la escala elegida para los ejes.
Es decir, la covarianza variar si expresamos la altura en metros o en
centmetros. Tambin variar si el dinero lo expresamos en euros o en
dlares.

2.1.1.
Ejemplos
Las notas de 12 alumnos de una clase en Matemticas y Fsica
son las siguientes:
Matemtica
6

Fsicas

s
2
3
4
4
5
6
6
9
9
8
10
10

1
3
2
4
4
4
6
4
6
7
9
10

Hallar la covarianza de la distribucin.


Xi
2
3
4
4
5
6
6
9
9
8
10
10
72

Yi
1
3
2
4
4
4
6
4
6
7
9
10
60

Xi- Yi
2
9
8
16
20
24
36
28
42
56
70
100
431

Despus de tabular los datos hallamos las medias aritmticas:


72
60
X = =6 Y = =5
12
12
xy =

431
6.5=5.72
12
Los valores de dos variables X e Y se distribuyen segn la tabla
siguiente:
Y/X
1
2
3

0
2
1
2
7

2
1
4
5

4
3
2
0

Hallar la covarianza de la distribucin.


En primer lugar convertimos la tabla de doble entrada en tabla
simple y calculamos las medias aritmticas.
xi
0
0
0
2
2
2
4
4

x =

xy =

3.

yi
1
2
3
1
2
3
1
2

fi
2
1
2
1
4
5
3
2
20

xi-fi
0
0
0
2
8
10
12
8
40

yi-fi
2
2
6
1
8
15
3
4
41

xi-yi-fi
0
0
0
2
16
30
12
16
96

40
41
=2 y = =2.05
20
20

96
22.05=0.3
20

Coeficiente de correlacin lineal


El coeficiente de correlacin lineal es el cociente entre la covarianza y el
producto de las desviaciones tpicas de ambas variables.
El coeficiente de correlacin lineal se expresa mediante la letra r.
r=

xy
x y

Propiedades
1. El coeficiente de correlacin no vara al hacerlo la escala de medicin.
Es decir, si expresamos la altura en metros o en centmetros el
coeficiente de correlacin no vara.
2. El signo del coeficiente de correlacin es el mismo que el de
la covarianza.
Si la covarianza es positiva, la correlacin es directa.
Si la covarianza es negativa, la correlacin es inversa.
8

Si la covarianza es nula, no existe correlacin.


3. El coeficiente de correlacin lineal es un nmero real comprendido
entre 1 y 1.
1 r 1
4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la
correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se
aproxime r a 1.
5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la
correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se
aproxime r a 1.
6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la
correlacin es dbil.
7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o
decreciente. Entre ambas variables hay dependencia funcional.

Ejemplos
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las
siguientes:
Matemtica
s
2
3
4
4
5
6
6
9
9
8
10
10

Fsicas
1
3
2
4
4
4
6
4
6
7
9
10

Hallar el coeficiente de correlacin de la distribucin e interpretarlo.

Xi
2
3
4
4
5
6
6
7
7
8
10
10
72

Yi
1
3
2
4
4
4
6
4
6
7
9
10
60

Xi2
4
9
16
16
25
36
36
49
49
64
100
100
504

Xi- Yi
2
9
8
16
20
24
36
28
42
56
70
100
431

Yi2
1
7
4
16
16
16
36
16
36
49
81
100
380

1. Hallamos las medias aritmticas.


72
60
X = =6 Y = =5
12
12
2. Calculamos la covarianza.
431
xy =
65=5.92
12
3. Calculamos las desviaciones tpicas.
504
380
x=
62 +2.45 y =
25+2.58
12
12

4. Aplicamos la frmula del coeficiente de correlacin lineal.


5.72
r=
=0.94
2.452.58
Al ser el coeficiente de correlacin positivo, la correlacin es directa.
Como coeficiente de correlacin est muy prximo a 1 la correlacin es muy
fuerte.
Los valores de dos variables X e Y se distribuyen segn la tabla
siguiente:

Y/X
1
2
3

10

0
2
1
2

2
1
4
5

4
3
2
0

Determinar el coeficiente de correlacin.


Convertimos la tabla de doble entrada en tabla simple.

Xi
0
0
0
2
2
2
4
4

Yi
1
2
3
1
2
3
1
2

x =

fi
2
1
2
1
4
5
3
2
20

Xi- fi
0
0
0
2
8
10
12
8
40

Xi2- fi
0
0
0
4
16
20
48
32
120

Yi- fi
2
2
6
1
8
15
3
4
41

Yi2- fi
2
4
18
1
16
45
3
8
97

Xi-Yi-Fi
0
0
0
2
16
30
12
16
76

40
41
=2 y = =2 .05
20
20

2x =

120 2
97
2 =2 2y = 2.052=0.65
20
20

x = 2=1.41 y = 0.65=0.81
xy =

r=

76
22.05=0.3
20

0.3
=0.26
1.410.81

Al ser el coeficiente de correlacin negativo, la correlacin es inversa.


Como coeficiente de correlacin est muy prximo a 0 la correlacin es
muy dbil.

2.2. Correlacin de Pearson


El coeficiente de correlacin de Pearson es un ndice estadstico que
mide la relacin lineal entre dos variables cuantitativas. A diferencia de la
11

covarianza (busca comparar los resultados obtenidos en diferentes


grupos de una variable cuantitativa pero corrigiendo las posibles
diferencias existentes entre los grupos en otras variables que pudieran
afectar tambin al resultado (covariantes) la correlacin de Pearson es
independiente de la escala de medida de las variables.
El clculo del coeficiente de correlacin lineal se realiza dividiendo la
covarianza por el producto de las desviaciones estndar de ambas
variables:

Siendo:
XY la covarianza de (X,Y)
X y Y las desviaciones tpicas de las distribuciones marginales.
El valor del ndice de correlacin vara en el intervalo [-1, +1]:

Si r = 0, no existe relacin lineal. Pero esto no necesariamente


implica una independencia total entre las dos variables, es decir,
que la variacin de una de ellas puede influir en el valor que
pueda tomar la otra. Pudiendo haber relaciones no lineales entre
las dos variables. Estas pueden calcularse con la razn de
correlacin.

Si r = 1, existe una correlacin positiva perfecta. El ndice indica


una dependencia total entre las dos variables denominada
relacin directa: cuando una de ellas aumenta, la otra tambin lo
hace en idntica proporcin.

Si 0 < r < 1, existe una correlacin positiva.

Si r = -1, existe una correlacin negativa perfecta. El ndice indica


una dependencia total entre las dos variables llamada relacin
inversa: cuando una de ellas aumenta, la otra disminuye en
idntica proporcin.

Si -1 < r < 0, existe una correlacin negativa.

12

El clculo del coeficiente sagas g de correlacin lineal se realiza


dividiendo la covariancia por el producto de las desviaciones estndar de
ambas variables:

r=

Zx Z y
n1

La frmula suele aparecer expresada como:

La primera expresin se resuelve utilizando la covarianza y las

desviaciones tpicas de las dos variables (en su forma insesgada).


La segunda forma se utiliza cuando partimos de las puntuaciones tpicas
empricas.

Este estadstico, refleja el grado de relacin lineal que existe entre dos
variables. El resultado numrico flucta entre los rangos de +1 a -1.
Tras

realizar el clculo del coeficiente de correlacin de Pearson (r) debemos

determinar si dicho coeficiente es estadsticamente diferente de cero. Para


dicho clculo se aplica un Tes. basado en la distribucin de la t de student.

1r 2
Error estandard de r =
n2
Si el valor del r calculado (en el ejemplo previo r = 0.885) supera al valor
del error estndar multiplicado por la t de Student con n-2 grados de
libertad, diremos que el coeficiente de correlacin es significativo.
El nivel de significacin viene dado por la decisin que adoptemos al
buscar el valor en la tabla de la t de Student.
En el ejemplo previo con 20 nios, los grados de libertad son 18 y el
valor de la tabla de la t de student para una seguridad del 95% es de
2.10 y para un 99% de seguridad el valor es 2.88.

Error estandard de r =

10.8852
=0.109
202

13

Como quiera que r = 0.885 > a 2.10 * 0.109 = 2.30 podemos asegurar
que el coeficiente de correlacin es significativo (p<0.05). Si aplicamos el
valor obtenido en la tabla de la t de Student para una seguridad del 99%
(t = 2.88) observamos que como r = 0.885 sigue siendo > 2.88 * 0.109 =
0.313 podemos a su vez asegurar que el coeficiente es significativo
(p<0.001). Este proceso de razonamiento es vlido tanto para muestras
pequeas como para muestras grandes. En esta ltima situacin
podemos comprobar en la tabla de la t de student que para una
seguridad del 95% el valor es 1.96 y para una seguridad del 99% el valor
es 2.58.

2.2.1.

Intervalo de confianza del coeficiente de correlacin.

La distribucin del coeficiente de correlacin de Pearson no es


normal pero no se puede transformar r para conseguir un valor z
que sigue una distribucin normal (transformacin de Fisher) y
calcular a partir del valor z el intervalo de confianza.
La transformacin es:
z=1/2 Ln

1+r
1r

LN representa el logaritmo neperiano en la base e

donde n representa el tamao maestral. El 95% intervalo de


confianza de z se calcula de la siguiente forma:

14

Tras calcular los intervalos de confianza con el valor z debemos


volver a realizar el proceso inverso para calcular los intervalos del
coeficiente r

Utilizando el ejemplo de la Tabla 1, obtenemos r = 0.885

95% intervalo de confianza de z

Tras calcular los intervalos de confianza de z debemos proceder a


hacer el clculo inverso para obtener los intervalos de confianza
de coeficiente de correlacin r que era lo que buscbamos en un
principio antes de la transformacin logartmica.

0.726 a 0.953 son los intervalos de confianza (95%) de r.

Presentacin de la correlacin
15

Se debe mostrar siempre que sea posible la grfica que


correlaciona las dos variables de estudio (Fig 1). El valor de r se
debe mostrar con dos decimales junto con el valor de la p si el test
de hiptesis se realiz para demostrar que r es estadsticamente
diferente de cero. El nmero de observaciones debe a su vez
estar indicado.

Figura 1. Correlacin entre Peso y Talla

Interpretacin de la correlacin
El coeficiente de correlacin como previamente se indic oscila
entre 1 y +1 encontrndose en medio el valor 0 que indica que
no existe asociacin lineal entre las dos variables a estudio. Un
coeficiente de valor reducido no indica necesariamente que no
exista correlacin ya que las variables pueden presentar una
relacin no lineal como puede ser el peso del recin nacido y el
tiempo de gestacin. En este caso el r infraestima la asociacin al
medirse linealmente. Los mtodos no paramtrico estaran mejor
utilizados en este caso para mostrar si las variables tienden a
elevarse conjuntamente o a moverse en direcciones diferentes.

16

Coeficiente de correlacin de los rangos de Spearman


Este coeficiente es una medida de asociacin lineal que utiliza los
rangos, nmeros de orden, de cada grupo de sujetos y compara
dichos rangos. Existen dos mtodos para calcular el coeficiente
de correlacin de los rangos uno sealado por Spearman y otro
por Kendall (8). El r de Spearman llamado tambin rho de
Spearman es ms fcil de calcular que el de Kendall. El
coeficiente de correlacin de Spearman es exactamente el mismo
que el coeficiente de correlacin de Pearson calculado sobre el
rango de observaciones. En definitiva la correlacin estimada
entre X e Y se halla calculado el coeficiente de correlacin de
Pearson para el conjunto de rangos apareados. El coeficiente de
correlacin de Spearman es recomendable utilizarlo cuando los
datos presentan valores externos ya que dichos valores afectan
mucho el coeficiente de correlacin de Pearson, o ante
distribuciones no normales.
El clculo del coeficiente viene dado por:

en donde di = rxi ryi es la diferencia entre los rangos de X e Y.

4. Anlisis de Correlacin Lineal


El Anlisis de Correlacin Lineal como lo expresamos al comienzo de esta
seccin es un mtodo estadstico que permite medir el grado de asociacin y
el sentido del mismo entre variables aleatorias que se supone se relacionan
linealmente.

17

La medida del grado de asociacin entre las variables X e Y se realiza por el


Coeficiente de Correlacin muestral "r", el cual constituye el estimador de
rho () que es el Coeficiente de Correlacin Poblacional.
Este coeficiente mide la "intensidad de asociacin entre variables".
Se puede demostrar que el coeficiente de correlacin lineal, r, es un
nmero que necesariamente est entre menos uno y uno, es decir:
-1 r 1
A continuacin se ilustran tres tipos diferentes de valores extremos de
asociacin entre variables:
r = - 1 : Perfecta relacin lineal inversa entre las variables. Todos los puntos
pertenecen a una recta de pendiente negativa.
r=1

: Perfecta relacin lineal directa entre las variables. Todos los puntos

pertenecen a una recta de pendiente positiva


r = 0 : No hay relacin lineal entre las variables. Ya sea porque, las variables
no estn asociadas, o porque la relacin entre ellas no es lineal
El estudio clsico de la correlacin se basa en la suposicin de que la
distribucin de valores (Xi, Yi) es una distribucin normal bidimensional y se
representa en grficos tridimensionales.

Clculo del Coeficiente de Correlacin:

xy
x . y

Cov( x , y ) Cov( X , Y )

Sx . Sy
V( x ) . V( y )

El coeficiente de correlacin muestral se calcula como:

18

x y

x i yi

r = i =1
=
2
2

x y

x i yi

- i =1

i =1

xi

n
-

i =1

i =1

x i

2 i =1

yi
n

2 i =1
.
yi
n
i =1

Recordando los conceptos vistos en el anlisis de regresin, se comprueba


que:

by / x . bx / y

n
x y
i =1
b x/y =
n
2
y
i =1

Siendo:

n
x y
Prueba de hiptesis para el coeficiente de correlacin poblacional
i =1
b y/x =
n
La prueba de significancia
consiste en probar la hiptesis nula que el
x2
coeficiente de correlacin poblacional es cero, contra la alternativa que es
i =1

distinto de cero mediante una prueba de t con n - 2 grados de libertad, es


decir:
Planteo de hiptesis
H0 :
H1 :
Expresin de clculo de t r
19

0
0

tr

r
Sr

Siendo: Sr el error estandr del coeficiente de correlacin, el cual se puede


calcular a partir de la siguiente expresin:

1 r 2
Sr
n2

CUESTIONARIO
1.
2.
3.
4.
5.

Una definicin de covarianza?


Qu es una correlacin de Pearson?
Qu diferencia existe entre covarianza y correlacin de Pearson?
Mediante que letra se representa el coeficiente de correlacin lineal?
Menciona las propiedades de coeficiente de correlacin lineal

BIBLIOGRAFA
http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html
Bouza Herrera, Carlos N. y Sistachs Vega, Vivian: Estadstica, Teora Bsica
y Ejercicios. Editorial Flix Varela, La Habana, 2004
20

Batanero, Carmen. Didctica de la Estadstica. Granada: Grupo de


Investigacin en Educacin Estadstica. Departamento de Didctica de la
Matemtica. Universidad de Granada, ISBN: 84-699-4295-6
http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html
http://www.monografias.com/trabajos82/regresion-y-correlacionlineal/regresion-y-correlacion-lineal.shtml

21

You might also like