Professional Documents
Culture Documents
Caractersticas:
i) El coeficiente r es un nmero comprendido entre -1 y +1
1 r 1 s s +
ii) Si r 0 > Existe una correlacin directa o positiva
iii) Si r 0 < Existe una correlacin Inversa o negativa
iv) Si r 1 = + Existe una perfecta asociacin positiva entre las dos variables
v) Si r 1 = Existe una perfecta asociacin negativa entre las dos variables
vi) Si r 0 = No Existe asociacin entre las dos variables, no existe asociacin lineal.
1.4 EJEMPLO DE CORRELACION
Ejemplo2: Del ejemplo1 hallar el coeficiente de correlacin
N
EDAD (X) PESO(Y) XY X
2
Y
2
1 54 74
3996 2916 5476
2 10 48
480 100 2304
3 8 45
360 64 2025
4 15 52
780 225 2704
5 30 60
1800 900 3600
6 18 54
972 324 2916
7 42 65
2730 1764 4225
8 28 58
1624 784 3364
9 19 55
1045 361 3025
10 31 62
1922 961 3844
X= 255 Y=573 XY=15709 X
2
=8399 Y
2
=33483
n 10 = ;
x
255
x 25.5
n 10
= = =
;
573
y 57.3
10
= =
Entonces:
De acuerdo al coeficiente r, existe una alta correlacin positiva entre la edad y
peso ya que r=0.988 se acerca a 1.
i i
i
n n
i i
n
i i
x nx y ny
x y nxy
r
= =
=
= = =
1 1
1
2 2
2 2 2 2
0.988
15709 10(25.5)(57.3)
8399 10(25.5) 33483 10(57.3)
1.5 LA COVARIANZA
DEFINICIN. La Covarianza es la varianza de una variable en
relacin a otra, tambin se le llama Varianza Conjunta. En el
estudio conjunto de dos variables, lo que nos interesa
principalmente es saber si existe algn tipo de relacin entre ellas.
Esto se ve grficamente con el diagrama de dispersin. Veremos
ahora una medida descriptiva que sirve para medir o cuantificar
esta relacin:
= =
=
n
i
k
j
ij j i
xy
n
n y y x x
S
1 1
) )( (
Si S
xy
>0 hay dependencia directa (positiva), es decir a grandes valores de x
corresponden grandes valores de y.
Si S
xy
= 0 las variables estn incorreladas, es decir no hay relacin lineal.
Si S
xy
< 0 hay dependencia inversa o negativa, es decir a grandes valores de x
corresponden grandes valores de y.
y x
xy
xy
S S
S
r =
2. ANALISIS DE REGRESION
REGRESIN. Es un mtodo que se emplea para encontrar una
funcin que se ajusta a una nube de puntos o diagrama de
dispersin, con la finalidad de obtener una prediccin aproximada
de una de las variables a partir de la otra.
Y f ( X ) =
3. REGRESION LINEAL SIMPLE
Este tipo de regresin se utiliza cuando existe solo una variable
independiente X para una variable dependiente Y. Est definida por
la siguiente ecuacin lineal en su forma general:
0 1
Y b b X e = + +
Donde:
Y Es la variable respuesta o valor de la prediccin de la variable Y dado un valor X .
0
b
Es el valor de Y cuando X = 0, es decir, es el valor de Y cuando la lnea de regresin
cruza el eje de las Y.
1
b
Es la pendiente de la lnea, o la variacin promedio en Y por cada variacin de una
unidad en X.
X Es cualquier valor seleccionado de la variable independiente X.
e Es el error de prediccin
3.1 METODO DE MINIMOS CUADRADOS PARA
ESTIMAR LOS COEFICIENTES DE REGRESIN.
Es un mtodo para obtener la recta que se ajuste mejor a los
datos, al graficar los datos sabemos que podemos trazar infinidad
de rectas pero este mtodo nos proporciona la de mejor ajuste.
A
i
e
se le llama desviacin o error que puede ser negativo o positivo, si elevamos las
desviaciones al cuadrado, para obtener la recta ms representativa la suma de los errores
al cuadrado
2 2 2 2
1 2 3 n
e e e ..... e + + + +
debe ser lo ms pequea posible.
3.2 ESTIMACION DE LOS COEFICIENTES
RECTA DE MINIMOS CUADRADOS. Para poder obtener la recta de regresin Y en X
utilizaremos la siguiente ecuacin de estimacin:
0 1
Y b b X = +
Donde los valores de
0
b
y
1
b
en la ecuacin de regresin son conocidos como coeficientes
de regresin y las frmulas para calcularlos son:
Nota: Para hallar las formulas anteriores se deriva la sumatoria de errores al cuadrado con
respecto a
0
b y
1
b . (Investigacin del alumno)
y b x b =
0 1
n
i
i
i
n
i i
x nx
x y nxy
b
=
=
2 2
1
1
1
3.3 EJEMPLO APLICATIVO
Ejemplo3: Una empresa tiene 7 vendedores, y se quiere analizar
las ventas mensuales (en miles de soles) frente a los aos de
experiencia. Los datos estn en la siguiente tabla.
Se trata de una relacin lineal? (analizar el diagrama de
dispersin)
Si es una ecuacin lineal hallar la ecuacin de regresin
determinando los coeficientes de regresin.
Predecir la venta de un empleado con 40 aos de experiencia
(Estimar Y para un valor X=40)
Solucin:
a) Segn el diagrama de dispersin existe una relacin
aproximadamente lineal.
b) Hallando la ecuacin de la recta de regresin:
3.3 EJEMPLO APLICATIVO
N
Experiencia
(X)
Ventas(miles)
(Y) XY X
2
Y
2
1 13 26 338 169 676
2 16 33 528 256 1089
3 30 36 1080 900 1296
4 2 16 32 4 256
5 8 26 208 64 676
6 6 19 114 36 361
7 31 38 1178 961 1444
X= 106 Y=194 XY=3478 X
2
=2390 Y
2
=5798
n 7 = ;
x
106
x 15.14
n 7
= = =
;
194
y 27.71
7
= =
0 1
b y b x 27.71 ( 0.688 )15.14 17.29 = = =
2
2 2
1
1
1
2390 7(15.14)
0.688
3478 7(15.14)(27.71)
n
i
i
i
n
i i
x nx
x y nxy
b
=
=
= = =
Y 17.29 0.688X = +
Interpretacin:
0
b 17.29 =
, Son las ventas de un empleado cuando X es cero o cuando no tienen
aos de experiencia. En otras palabras un vendedor tendr en promedio ventas de S/.
17290 si no tiene aos de experiencia.
1
b 0.688 =
, Es el incremento en 0.688 cuando X aumenta en una unidad. En otras
palabras es el aumento en S/. 688 por cada ao de experiencia que adquiera un
empleado.
a) Prediccin para X=40
Caractersticas:
i) Es un valor no negativo ya que se encuentra entre 0 y 1
2
0 R 1 s s
ii) Es un valor muy importante en cualquier anlisis de regresin, ya que muestra el grado
hasta el cual estn relacionadas la variabilidad de X e Y
Ejemplo4: Del ejemplo 3 sobre la regresin entre la Edad y Peso tenemos que:
r 0.939 = , por lo cual ( )
2
2
R 0.939 0.883 = =
Interpretacin: El 88.3% de las variaciones de las ventas (Y) son explicados por los aos de
experiencia. Existe adems un (100 -88.3)% = 11.7% que no es explicado por los aos de
experiencia.
5. ERROR ESTNDAR DE ESTIMACIN
En el anterior diagrama de dispersin no todos los puntos coinciden con la lnea de regresin.
Si todos los puntos estuvieran sobre la lnea no habra error al predecir la variable dependiente
Y basndose en la variable independiente X.
La prediccin perfecta es prcticamente imposible, por lo tanto es necesaria una medida que
indique que tan precisa es una prediccin de Y basada en X. Esta medida es llamada el error
estndar de estimacin. El error estndar de estimacin, simbolizado Sy.x, es el mismo
concepto de la desviacin estndar. La desviacin estndar mide la dispersin alrededor de la
media, el error estndar de estimacin mide la dispersin alrededor de la lnea de dispersin.
El error estndar de estimacin es calculado con la siguiente frmula.
( )
2 2
1 1 1
.
2 2
n n n
i i i i
i i i
y x
y a y b x y
Y Y
n n
s
= = =
= =