You are on page 1of 17

Ms.C.

juan Carlos Oruna Lara


CORRELACION Y REGRESION
PRESENTADO POR:
INTRODUCCIN
Cuando observamos dos caracteres X e Y en un individuo, se nos
presenta el problema de determinar la existencia de algn tipo de
relacionamiento entere ellos. El anlisis de este relacionamiento presenta
dos aspectos diferentes.
Unas veces nuestro inters est en conocer si las dos variables estn
asociadas y medir hasta qu punto los cambios en una pueden explicarse
por los cambios que ocurren en la otra. En tal caso tenemos un problema
de correlacin y la medida que cuantifica es el llamado Coeficiente de
Correlacin.
Otras veces, cuando estamos seguros que existe un alto grado de
asociacin entre las dos variables, el anlisis se encamina a cuantificar la
relacin existente con el fin de predecir cules sern los valores de la
variable respuesta, en este caso tenemos un problema de Regresin.
1. ANALISIS DE CORRELACION
DEFINICIN. La correlacin es el mtodo empleado para
determinar el grado de asociacin o relacionamiento entre las
variables que se estudian, para as determinar en qu medida una
relacin funcional describe o explica en una forma adecuada la
relacin entre estas variables.
TIPOS DE CORRELACIN. Atendiendo al relacionamiento entre
las variables X e Y podemos tener:
Correlacin Directa o Positiva. Cuando las variables X e Y
presentan variaciones en un mismo sentido, esto es, para mayores
valores de X corresponde mayores valores de Y.
Correlacin Inversa o Negativa. Cuando las variaciones de X e Y
son en sentidos contrarios, esto es, para mayores valores de X
corresponden menores valores de Y.
Sin correlacin. Cuando no existe ningn tipo de relacionamiento
entre las variables.
1.1 DIAGRAMA DE DISPERSION
Se utiliza para graficar la relacin entre dos variables X e Y,
consiste en una nube de puntos que indicar si existe o no
correlacin dependiendo de la tendencia de la tendencia de los
puntos.
Correlacin
Positiva
(Directa)
Correlacin
Negativa
(Inversa)
Sin
Correlacin
1.2 EJEMPLO DE CORRELACION
Ejemplo1: Si tenemos los datos que se presentan en la tabla y
consideramos que la edad determina el peso de las personas
entonces podremos observar la siguiente grfica:
EDAD(X) PESO(Y)
54 74
10 48
8 45
15 52
30 60
18 54
42 65
28 58
19 55
31 62
Observando el grfico podemos decir que la edad y el peso tienen
una correlacin Directa o Positiva.
1.3 COEFICIENTE DE CORRELACION
Es un nmero que indica el grado de asociacin entre las variables
y se define del siguiente modo:
1 1
1
2 2 2 2
xy
x y
i i
i
n n
i i
n
i i
S
S S
x nx y ny
x y nxy
r
= =
=
= =

Caractersticas:
i) El coeficiente r es un nmero comprendido entre -1 y +1
1 r 1 s s +
ii) Si r 0 > Existe una correlacin directa o positiva
iii) Si r 0 < Existe una correlacin Inversa o negativa
iv) Si r 1 = + Existe una perfecta asociacin positiva entre las dos variables
v) Si r 1 = Existe una perfecta asociacin negativa entre las dos variables
vi) Si r 0 = No Existe asociacin entre las dos variables, no existe asociacin lineal.
1.4 EJEMPLO DE CORRELACION
Ejemplo2: Del ejemplo1 hallar el coeficiente de correlacin
N
EDAD (X) PESO(Y) XY X
2
Y
2
1 54 74
3996 2916 5476
2 10 48
480 100 2304
3 8 45
360 64 2025
4 15 52
780 225 2704
5 30 60
1800 900 3600
6 18 54
972 324 2916
7 42 65
2730 1764 4225
8 28 58
1624 784 3364
9 19 55
1045 361 3025
10 31 62
1922 961 3844
X= 255 Y=573 XY=15709 X
2
=8399 Y
2
=33483
n 10 = ;
x
255
x 25.5
n 10
= = =

;
573
y 57.3
10
= =

Entonces:





De acuerdo al coeficiente r, existe una alta correlacin positiva entre la edad y
peso ya que r=0.988 se acerca a 1.
i i
i
n n
i i
n
i i
x nx y ny
x y nxy
r
= =
=
= = =

1 1
1
2 2
2 2 2 2
0.988
15709 10(25.5)(57.3)
8399 10(25.5) 33483 10(57.3)
1.5 LA COVARIANZA
DEFINICIN. La Covarianza es la varianza de una variable en
relacin a otra, tambin se le llama Varianza Conjunta. En el
estudio conjunto de dos variables, lo que nos interesa
principalmente es saber si existe algn tipo de relacin entre ellas.
Esto se ve grficamente con el diagrama de dispersin. Veremos
ahora una medida descriptiva que sirve para medir o cuantificar
esta relacin:


= =

=
n
i
k
j
ij j i
xy
n
n y y x x
S
1 1
) )( (


Si S
xy
>0 hay dependencia directa (positiva), es decir a grandes valores de x
corresponden grandes valores de y.
Si S
xy
= 0 las variables estn incorreladas, es decir no hay relacin lineal.
Si S
xy
< 0 hay dependencia inversa o negativa, es decir a grandes valores de x
corresponden grandes valores de y.
y x
xy
xy
S S
S
r =
2. ANALISIS DE REGRESION
REGRESIN. Es un mtodo que se emplea para encontrar una
funcin que se ajusta a una nube de puntos o diagrama de
dispersin, con la finalidad de obtener una prediccin aproximada
de una de las variables a partir de la otra.
Y f ( X ) =
3. REGRESION LINEAL SIMPLE
Este tipo de regresin se utiliza cuando existe solo una variable
independiente X para una variable dependiente Y. Est definida por
la siguiente ecuacin lineal en su forma general:
0 1
Y b b X e = + +
Donde:
Y Es la variable respuesta o valor de la prediccin de la variable Y dado un valor X .
0
b
Es el valor de Y cuando X = 0, es decir, es el valor de Y cuando la lnea de regresin
cruza el eje de las Y.
1
b
Es la pendiente de la lnea, o la variacin promedio en Y por cada variacin de una
unidad en X.
X Es cualquier valor seleccionado de la variable independiente X.
e Es el error de prediccin
3.1 METODO DE MINIMOS CUADRADOS PARA
ESTIMAR LOS COEFICIENTES DE REGRESIN.
Es un mtodo para obtener la recta que se ajuste mejor a los
datos, al graficar los datos sabemos que podemos trazar infinidad
de rectas pero este mtodo nos proporciona la de mejor ajuste.
A
i
e
se le llama desviacin o error que puede ser negativo o positivo, si elevamos las
desviaciones al cuadrado, para obtener la recta ms representativa la suma de los errores
al cuadrado
2 2 2 2
1 2 3 n
e e e ..... e + + + +
debe ser lo ms pequea posible.
3.2 ESTIMACION DE LOS COEFICIENTES
RECTA DE MINIMOS CUADRADOS. Para poder obtener la recta de regresin Y en X
utilizaremos la siguiente ecuacin de estimacin:
0 1

Y b b X = +
Donde los valores de
0
b
y
1
b
en la ecuacin de regresin son conocidos como coeficientes
de regresin y las frmulas para calcularlos son:




Nota: Para hallar las formulas anteriores se deriva la sumatoria de errores al cuadrado con
respecto a
0
b y
1
b . (Investigacin del alumno)
y b x b =
0 1
n
i
i
i
n
i i
x nx
x y nxy
b
=
=

2 2
1
1
1
3.3 EJEMPLO APLICATIVO
Ejemplo3: Una empresa tiene 7 vendedores, y se quiere analizar
las ventas mensuales (en miles de soles) frente a los aos de
experiencia. Los datos estn en la siguiente tabla.
Se trata de una relacin lineal? (analizar el diagrama de
dispersin)
Si es una ecuacin lineal hallar la ecuacin de regresin
determinando los coeficientes de regresin.
Predecir la venta de un empleado con 40 aos de experiencia
(Estimar Y para un valor X=40)
Solucin:
a) Segn el diagrama de dispersin existe una relacin
aproximadamente lineal.
b) Hallando la ecuacin de la recta de regresin:
3.3 EJEMPLO APLICATIVO
N
Experiencia
(X)
Ventas(miles)
(Y) XY X
2
Y
2
1 13 26 338 169 676
2 16 33 528 256 1089
3 30 36 1080 900 1296
4 2 16 32 4 256
5 8 26 208 64 676
6 6 19 114 36 361
7 31 38 1178 961 1444
X= 106 Y=194 XY=3478 X
2
=2390 Y
2
=5798
n 7 = ;
x
106
x 15.14
n 7
= = =

;
194
y 27.71
7
= =






0 1
b y b x 27.71 ( 0.688 )15.14 17.29 = = =

2
2 2
1
1
1
2390 7(15.14)
0.688
3478 7(15.14)(27.71)
n
i
i
i
n
i i
x nx
x y nxy
b
=
=

= = =

3.3 EJEMPLO APLICATIVO


Entonces la ecuacin de regresin estimada ser:

Y 17.29 0.688X = +
Interpretacin:
0
b 17.29 =
, Son las ventas de un empleado cuando X es cero o cuando no tienen
aos de experiencia. En otras palabras un vendedor tendr en promedio ventas de S/.
17290 si no tiene aos de experiencia.

1
b 0.688 =
, Es el incremento en 0.688 cuando X aumenta en una unidad. En otras
palabras es el aumento en S/. 688 por cada ao de experiencia que adquiera un
empleado.

a) Prediccin para X=40

Y 17.29 0.688( 40 ) 44.826 = + =


Un empleado con 40 aos de experiencia en ventas, vender aproximadamente
S/.44826
4. COEFICIENTE DE DETERMINACION
Mide el porcentaje de variabilidad en Y que puede explicarse a travs del conocimiento de
la variable independiente X. Se calcula con la siguiente frmula:

( ) ( )
2
2 2
2 2 2 2
i i
( x x )( y y )
R r
x nx y ny


= =



Caractersticas:
i) Es un valor no negativo ya que se encuentra entre 0 y 1
2
0 R 1 s s
ii) Es un valor muy importante en cualquier anlisis de regresin, ya que muestra el grado
hasta el cual estn relacionadas la variabilidad de X e Y

Ejemplo4: Del ejemplo 3 sobre la regresin entre la Edad y Peso tenemos que:
r 0.939 = , por lo cual ( )
2
2
R 0.939 0.883 = =

Interpretacin: El 88.3% de las variaciones de las ventas (Y) son explicados por los aos de
experiencia. Existe adems un (100 -88.3)% = 11.7% que no es explicado por los aos de
experiencia.
5. ERROR ESTNDAR DE ESTIMACIN
En el anterior diagrama de dispersin no todos los puntos coinciden con la lnea de regresin.
Si todos los puntos estuvieran sobre la lnea no habra error al predecir la variable dependiente
Y basndose en la variable independiente X.
La prediccin perfecta es prcticamente imposible, por lo tanto es necesaria una medida que
indique que tan precisa es una prediccin de Y basada en X. Esta medida es llamada el error
estndar de estimacin. El error estndar de estimacin, simbolizado Sy.x, es el mismo
concepto de la desviacin estndar. La desviacin estndar mide la dispersin alrededor de la
media, el error estndar de estimacin mide la dispersin alrededor de la lnea de dispersin.
El error estndar de estimacin es calculado con la siguiente frmula.
( )
2 2
1 1 1
.

2 2
n n n
i i i i
i i i
y x
y a y b x y
Y Y
n n
s
= = =

= =

You might also like