You are on page 1of 22

Anlisis de

Relacin y
Correlacin

Integrantes:

Retegui Orbe Genaro


Flores Rojas Xiomy
Snchez Arirama Luis ngel
Tantalean Tocto Lily
Vela Bartra Karen

Anlisis de Regresin y Correlacin


Introduccin:
El objetivo de este tema es analizar el grado de la relacin
existente entre variables utilizando modelos matemticos y
representaciones grficas. As pues, para representar la relacin
entre dos o ms variables desarrollaremos una ecuacin que
permitir estimar una variable en funcin de la otra.
Por ejemplo, en qu medida, un aumento de los gastos en
publicidad hace aumentar las ventas de un determinado
producto?, cmo representamos que la bajada de temperaturas
implica un aumento del consumo de la calefaccin?,...
A continuacin, estudiaremos dicho grado de relacin entre dos
variables en lo que llamaremos anlisis de correlacin. Para
representar esta relacin utilizaremos una representacin
grfica llamada diagrama de dispersin y, finalmente,
estudiaremos un modelo matemtico para estimar el valor de
una variable basndonos en el valor de otra, en lo que
llamaremos anlisis de regresin.

CONCEPTOS:
El anlisis de regresin consiste en emplear mtodos que
permitan determinar la mejor relacin funcional entre dos o
ms variables concomitantes (o relacionadas). El anlisis de
correlacin estudia el grado de asociacin de dos o ms
variables.

Definicin de Correlacin Lineal:


En ocasiones nos puede interesar estudiar si existe o no algn
tipo de relacin entre dos variables aleatorias. As, por
ejemplo, podemos preguntarnos si hay alguna relacin entre
las notas de la asignatura Estadstica I y las de Matemticas I.
Una primera aproximacin al problema consistira en dibujar
en el plano R2 un punto por cada alumno: la primera
coordenada de cada punto sera su nota en estadstica,
mientras que la segunda sera su nota en matemticas. As,
obtendramos una nube de puntos la cual podra indicarnos
visualmente la existencia o no de algn tipo de relacin
(lineal, parablica, exponencial, etc.) entre ambas notas. Otro
ejemplo, consistira en analizar la facturacin de una empresa
en un periodo de tiempo dado y de cmo influyen los gastos
de promocin y publicidad en dicha facturacin. Si
consideramos un periodo de tiempo de 10 aos, una posible
representacin sera situar un punto por cada ao de forma
que la primera coordenada de cada punto sera la cantidad en
euros invertidos en publicidad, mientras que la segunda sera
la cantidad en euros obtenidos de su facturacin. De esta
manera, obtendramos una nube de puntos que nos indicara
el tipo de relacin existente entre ambas variables. En
particular, nos interesa cuantificar la intensidad de la
relacin lineal entre dos variables. El parmetro que nos da
tal cuantificacin es el coeficiente de correlacin lineal de
Pearson r, cuyo valor oscila entre 1 y +1:

Como se observa en los diagramas anteriores, el valor de r se


aproxima a +1 cuando la correlacin tiende a ser lineal directa
(mayores valores de X significan mayores valores de Y), y se
aproxima a 1 cuando la correlacin tiende a ser lineal inversa...
Es importante notar que la existencia de correlacin entre
variables no implica causalidad.

Atencin!: si no hay correlacin de ningn tipo entre dos v.a.


entonces tampoco habr correlacin lineal, por lo que r = 0. Sin
embargo, el que ocurra r = 0 slo nos dice que no hay
correlacin lineal, pero puede que la haya de otro tipo.
El siguiente diagrama resume el anlisis del coeficiente de
correlacin entre dos variable:

Definicin y caractersticas del concepto de Regresin


Lineal
En aquellos casos en que el coeficiente de regresin lineal sea
cercano a +1 o a 1, tiene sentido considerar la ecuacin de la
recta que mejor se ajuste a la nube de puntos (recta de
mnimos cuadrados). Uno de los principales usos de dicha recta
ser el de predecir o estimar los valores de Y que obtendramos
para distintos valores de X. Estos conceptos quedarn
representados en lo que llamamos diagrama de dispersin:

La ecuacin de la recta de mnimos cuadrados (en forma


punto-pendiente) es la siguiente:

Anlisis de Regresin
Una relacin funcional matemticamente hablando, est dada
por:
Y = f(x1,...,xn; 1,...,m)
Dnde:
Y : Variable respuesta (o dependiente)
xi : La i-sima variable independiente (i=1,..,n)

j : El j-simo parmetro en la funcin (j=1,..,m)


f : La funcin
Para elegir una relacin funcional particular como la
representativa de la poblacin bajo investigacin, usualmente
se procede:
1) Una consideracin analtica del fenmeno que nos ocupa, y
2) Un examen de diagramas de dispersin.
Una vez decidido el tipo de funcin matemtica que mejor se
ajusta (o representa nuestro concepto de la relacin exacta que
existe entre las variables) se presenta el problema de elegir una
expresin particular de esta familia de funciones; es decir, se ha
postulado una
Cierta funcin como trmino del verdadero estado en la
poblacin y ahora es necesario
Estimar los parmetros de esta funcin (ajuste de curvas).
Como los valores de los parmetros no se pueden determinar
sin errores por que los
Valores observados de la variable dependiente no concuerdan
con los valores esperados,
Entonces la ecuacin general replanteada, estadsticamente,
sera:
Y = f(x1,...xn;1,...,m) +

Donde representa el error cometido en el intento de observar


la caracterstica en
Estudio, en la cual muchos factores contribuyen al valor que
asume .

Regresin Lineal Simple:


Cuando la relacin funcional entre las variables dependiente
(Y) e independiente (X) es una lnea recta, se tiene una
regresin lineal simple, dada por la ecuacin

Y = o + 1X +

Dnde:
o: El valor de la ordenada donde la lnea de regresin se
intersecta al eje Y.
1: El coeficiente de regresin poblacional (pendiente de la
lnea recta)
: El error.

Suposiciones de la regresin lineal:


1. Los valores de la variable independiente X son "fijos".
2. La variable X se mide sin error (se desprecia el error de
medicin en X)
3. Existe una subpoblacin de valores Y normalmente
distribuido para cada valor de X.
4. Las variancias de las subpoblaciones de Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y estn sobre la
misma recta.
6. Los valores de Y estn normalmente distribuidos y son
estadsticamente independientes.

Los supuestos del 3 al 6 equivalen a decir que los errores son


aleatorios, que se distribuyen normalmente con media cero y
variancia .

Terminologa:
Promedios:

Sumas de cuadrados y productos de X e Y.

SCY tambin corresponde a la suma de cuadrados total = SC


total

Estimacin de parmetros
La funcin de regresin lineal simple es expresado como:
Y = o + 1X + la estimacin de parmetros consiste en
determinar los parmetros o y 1 a partir de los datos
mustrales observados; es decir, deben hallarse valores como
Bo y b1 de la muestra, que represente a o y 1,
respectivamente.

Empleando el mtodo de los mnimos cuadrados, es decir


minimizando la suma de cuadrados de los errores, se
determinan los valores de Bo y b1, as:

b0: es el valor que representa (estimador) a 0 constituye el


intercepto cuando X=0;
b1: es el valor que representa (estimador) a 1.
Sus desviaciones estndares respectivas son:

Luego, la ecuacin de regresin es: y = Bo + b1X


El coeficiente de regresin (b1).- pendiente de la recta de
regresin, representa la tasa de cambio de la respuesta Y al
cambio de una unidad en X.
Si b1=0, se dice que no existe relacin lineal entre las dos
variables.

Fuentes de variacin en la regresin lineal


Los clculos de regresin pueden ser vistos como un proceso de
particin de la suma total de cuadrados; as, grficamente se
tiene:

Se observa que la desviacin total para un Yi en particular es


igual a la suma de las desviaciones explicada e inexplicada,
simblicamente.

SC total = SC regression + SC residual


Suma de Cuadrados del Total (SCT), mide la dispersin
(variacin total) en los valores observados de Y. Este trmino se
utiliza para el clculo de la variancia de la muestra.
Suma de Cuadrados explicada (Suma de Cuadrados debido a
la Regresin, SCR) mide la variabilidad total en los valores
observados de Y en consideracin a la relacin lineal entre X e
Y.
Suma de Cuadrados residual (inexplicada, Suma de
Cuadrados del Error, SCE) mide la dispersin de los valores Y
observados respecto a la recta de regresin Y (es la cantidad
que se minimiza cuando se obtiene la recta de regresin).
Anlisis de Variancia para la regresin lineal simple
Cuando cada particin se asocia a una porcin correspondiente
del total de grados de libertad, la tcnica es conocida cono
anlisis de variancia (ANVA), que generalmente se presenta en
un cuadro de la siguiente forma:

La prueba estadstica F evala las hiptesis:


Hp: 1 = 0. No existe una regresin lineal entre X e Y.
Ha: 1 0. Existe regresin lineal de Y en funcin de X.

Para el ejemplo del grafico (ao base 1990 = 0)

Modelo de regresin estimado:


Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X
X = El periodo.
R = (49223 / 105526) *100% = 46%
Intercepto = 467,42
Tasa = 24,42
Significa que el crecimiento anual es de 24 mil metros cbicos.

Intervalos de Confianza
Intervalos de confianza para 1 (tasa)
En muchos casos es de inters conocer entre que valores se
encuentra el coeficiente de
Regresin de la poblacin 1 para un cierto grado de confianza
fijada, este procedimiento
Permite hallar los valores llamados lmites de confianza, as:
b1 - t0 Sb1 1 b1 + to Sb1
Dnde: t0 es el valor "t" tabular al nivel de significacin y n-2
grados de libertad ( t0 = t,n-2).
t 0.05, 8 = 2,30; SC X = 82.5; Sb1 = 9,23
Lmite Inferior = 24,42 2,30 (9,23) = 3.12
Limite Superior = 24,42 + 2,30 (9,23) = 45,72
Con estos resultados se puede afirmar al 95% de confianza que
la tasa de crecimiento en
Madera aserrada es positiva y por lo menos se tendr un
crecimiento de 3 mil metros cbicos por ao.
En funcin del modelo se puede hacer estimaciones para los
siguientes aos:

Estas proyecciones son puntuales, en base al modelo; para ao


2000, X=10, resulta una
Produccin de 711 mil m3 de madera aserrada.
Para obtener lmites de confianza
predecidos, se debe determinar sus

para

estos

valores

Desviacin estndar correspondiente; utilice la siguiente


formula:

Lmites: Valor Predicho (t0.05, n-2) (S_predicho)


Para el 2002, los lmites de confianza son:
Lmite Inferior = 760,55 2,30 (111,98) = 502
Limite Superior = 760,55 + 2,30 (111,98) = 1018
Esta informacin significa que para el ao 2002, se estima una
produccin de madera

Aserrada entre 502 a 1018 miles de m3.


Prueba de Hiptesis
Se plantea los siguientes casos:
a) Cuando 1 = 0; es decir, si la variable Y no est relacionada
linealmente con la
Variable X. Esto equivale a plantear la hiptesis Hp: 1=0, y va
una prueba F
Comparar el valor de F calculado (Fc) con el valor F tabular
(Fo), donde
Fc=CMR/CME y Fo=F(1,n-2)gl. Si Fc>Fo, se rechaza la
hiptesis planteada,
Esto supone un valor 1 distinto de cero y se concluye que Y se
puede expresar
En trminos de X linealmente.
b) Cuando 1 tiene un valor especfico distinto de cero 10; es
decir, Hp: 1=10.
En este caso, para la prueba de esta hiptesis se usa el
estadstico t de Student.
El valor t calculado es hallado mediante la expresin: tc = (b110)/Sb1
Si tc > t se rechaza la hiptesis planteada, donde t es el valor
de la tabla al nivel
y n-2 gl.

Para el ejemplo planteado, se rechaza la hiptesis planteada,


esto significa que existe una
Relacin lineal significativa del tiempo y la produccin de
madera aserrada total.
Anlisis de Correlacin
El anlisis de correlacin emplea mtodos para medir la
significacin del grado o
Intensidad de asociacin entre dos o ms variables. El concepto
de correlacin est Estrechamente vinculado al concepto de
regresin, pues, para que una ecuacin de regresin sea
razonable los puntos mustrales deben estar ceidos a la
ecuacin de regresin; adems el coeficiente de correlacin
debe ser:
- Grande cuando el grado de asociacin es alto (cerca de +1 o 1, y pequeo cuando
- Es bajo, cerca de cero.
- Independiente de las unidades en que se miden las variables.
Coeficiente de correlacin Lineal Simple ( r).
Es un nmero que indica el grado o intensidad de asociacin
entre las variables X e Y. Su
Valor vara entre -1 y +1; esto es:
-1 r 1.

Si r = -1, la asociacin es perfecta pero inversa; es decir, a


valores altos de una variable le
Corresponde valores bajos a la otra variable, y viceversa.
Si r=+1, tambin la asociacin es perfecta pero directa.
Si r=0, no existe asociacin entre las dos variables.
Luego puede verse que a medida que r se aproxime a -1 +1 la
asociacin es mayor, y
Cuando se aproxima a cero la asociacin disminuye o
desaparece.
El coeficiente de correlacin est dada por:

Para los datos de la produccin de madera aserrada total entre


los aos 1990 a 1999, existe una asociacin de 0.68

Coeficiente de Determinacin (R)


Mide el porcentaje de variacin en la variable respuesta,
explicada por la variable independiente.
De la descomposicin de la suma de cuadrados total, se obtuvo:
SCT = SCR + SCE
SCR = Suma de cuadrados de la regresin.
SCE = Suma de cuadrados residual (error).
Dividiendo ambos miembros por la SCT, se tiene:
1 = SCR/SCT + SCE/SCT
De este resultado, se define el coeficiente de determinacin
como:
R = 1 - SCE/SCT = SCR/SCT
R = SC regresin / SC total
Como SCR SCT, se deduce que 0 R 1.
Interpretacin de R:
Se interpreta como una medida de ajuste de los datos
observados y proporciona el porcentaje de la variacin total
explicada por la regresin.
R es un valor positivo, expresado en porcentaje es menor de
100.
Tambin, se puede obtener el R ajustado que es la relacin
entre cuadrados medios, as:

R ajustado = 1 CME / CM Total;


Este valor podra ser negativo en algunos casos.
Lo que se espera que ambos R, resulten similares, para dar una
confianza al coeficiente de determinacin.
Para el ejemplo, resulta:
R ajustado = 1 70378 / (105526 / 9) = 0,39 y R = 1 56302,7 /
105525,86 = 0,46

You might also like