Professional Documents
Culture Documents
109
Captulo 6.
RELACIONES ENTRE VARIABLES.
6.1. El coeficiente de correlacin de Pearson.
Definicin.- Es una prueba estadstica para analizar la relacin entre dos variables
medidas en un nivel por intervalos o de razn.
Hiptesis a probar: Correlacional, del tipo A mayor X, mayor Y, A mayor X, menor
Y, Altos valores en X estn asociados con altos valores en Y, Altos valores en X se
asocian con bajos valores de Y.
La prueba en si no considera a una variable como independiente y a otra como
dependiente, ya que no se trata de una prueba que evala la causalidad. La nocin de
causa-efecto (independiente-dependiente) se puede establecer tericamente, pero la
prueba no considera dicha causalidad.
El coeficiente de correlacin de Pearson ( r ), se calcula a partir de las puntuaciones
obtenidas en una muestra en dos variables. Se relacionan las puntuaciones obtenidas de
una variable con las puntuaciones obtenidas de otra variable, en los mismos sujetos.
n
n xi y i ( xi )( y i )
i 1
i 1
n
2
2
2
2
n
x
(
x
)
n
y
(
i i i yi )
i 1
i 1
i 1
i 1
110
111
2) Independencia.
Se supone que las Yi son variables aleatorias estadsticamente independientes.
3) Linealidad.
Se supone que la relacin de Y con X es lineal, es decir todas las medias Y/ x deben
estar en una lnea recta denominada lnea de regresin poblacional, cuya ecuacin es,
(ver figura 6.1)
i
Y/X X
Y/X X
ei
ei
Yi
X
X1
X2
X3
X4
Yi Y / x i E i x i E i
112
4) Normalidad.
Se supone que cada variable aleatoria dependiente Yi tiene distribucin normal con
media Y/ x y varianza 2. En consecuencia, E i ~ N(0, 2 ) .
i
X
(e) Lineal inversa
con ms dispersin
X
(f) Ninguna relacin
En las figuras (a) , (b) y (e) los datos visualizan una relacin lineal entre las variables X
e Y. En las figuras (c) y (d) los datos visualizan una relacin, pero, una relacin no
lineal, y en la figura (f) los datos visualizan ninguna relacin vlida entre las variables.
X
Y
X
(d) Curvilnea inversa
113
i 1
i 1
i 1
yi an b xi
i
x y
i
i 1
n
i 1
i 1
a xi b xi2
n
de donde se obtiene:
i 1
n
i 1
n xi yi xi yi
i 1
n xi2 ( xi ) 2
i 1
i 1
a y bx
114
Solucin
Ventas (unidades) Y
16
14
12
10
8
6
4
2
0
0
2
3
Experiencia (aos) X
Fig. 6.3.
Experiencia (X)
3
Ventas (Y)
9
X2
9
XY
27
14
14
25
70
4
15
10
45
16
55
40
156
x i 15 ,
i 1
y i 45 ,
i 1
x 3
n
i 1
n
i 1
n x i y i xi y i
i 1
n xi2 ( xi ) 2
i 1
x i2 55
i 1
x y
i 1
y9
5(156) (15)(45)
2.1
5(55) (15) 2
i 1
a y b x 9 2.1 3 2.7
2.7 2.1 X
As, la lnea de regresin estimada o muestral es: Y
156 ,
115
La salida muestra el resultado de ajustar un modelo lineal para describir la relacin entre
Ventas y Experiencia. La ecuacin del modelo lineal ajustado es:
Ventas = 2.7 + 2.1 * Experiencia
d)
6.2.4.- Estimacin de la varianza de la regresin poblacional 2.
a bX nos interesa saber su
Una vez halada la lnea recta de regresin muestral, Y
utilidad. La utilidad principal es predecir valores de Y para valores determinados de X.
Si se hace prediccin nos interesa saber, qu tan buena o confiable es esa prediccin?.La respuesta a esta pregunta depende de la variabilidad de los valores de Y con respecto
a la recta de regresin.
Una medida que indica el grado de variabilidad o dispersin en torno a la lnea de
regresin es la varianza de la regresin poblacional, que se denota por 2 o por Y2 / X
y se define por:
N
2 E(Y Y/X )
(y
i 1
Y/X ) 2
N
SCE
S2
n2
(y
i 1
2
y
i)
n-2
116
S2
SCE
n2
i 1
i 1
i 1
y i2 - a y i - b x i yi
n-2
y i 45 ,
i 1
x y
i 1
)
(YY
)2
(YY
3
1
2
5
4
9
5
7
14
10
9
4.8
6.9
13.2
11.1
0.0
0.2
0.1
0.8
-1.1
0.00
0.04
0.01
0.64
1.21
5
Y
i 1
S2
(y
i 1
2
y
i)
n-2
1.90
0.6334
3
0.6334 0.7958
unidades.
S2
i 1
i 1
i 1
y i2 - a y i - b x i yi
n -2
156
I 2 1.90
Y
0.6334
3
3
117
0.6334 0.7958
( y
i 1
y )2
( y
i 1
SCT
y i ) 2
SCE
( y
i 1
y )2
SCR
y.
118
SCR / 1
CMR
~ F(1, n 2)
SCE / (n 2)
CME
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
Regresin
SCR
CMR = SCR / 1
F
calculada
Error
Total
SCE
SCT
n-2
n-1
CMR
CME
SCT y i2 n( y) 2
i 1
SCR b
x y
i 1
n( x )( y)
Ejemplo 3.- Con los datos del ejemplo 1, mediante el mtodo de anlisis de varianza
probar la significancia de la ecuacin de regresin muestral, al nivel de significancia del
5%.
Solucin .1) Hiptesis : H 0 : = 0 contra H 0 : 0
2) Nivel de significancia : = 0.05
3) Estadstica de prueba : F
CMR
~ F(1, 3) , donde n = 5
CME
119
SCR b
x y
i 1
Suma de
cuadrados
44.1
Grados de
libertad
1
Error
Total
1.9
46.0
3
4
Cuadrados
medios
CMR = 44.1
CME = 0.6334
F
calculada
F = 69.624
6.- Decisin.- Dado que F = 69.624 > 10.1, se rechaza H 0. Estos resultados reflejan la
validez del modelo de regresin poblacional entre aos de experiencia y ventas.
Nota.- Observar que la estimacin de la varianza 2 es S2 = CME = 0.6334.
Nota.- Mediante el paquete Estadstico Statgraphics, resulta el siguiente anlisis de
varianza para = 0.
Analysis of Variance
---------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
---------------------------------------------------------------------------Model
44.1
1
44.1
69.63
0.0036
Residual
1.9
3
0.633333
---------------------------------------------------------------------------Total (Corr.)
46.0
4
Puesto que el valor P-value = 0.0036 < 0.05, se concluye que existe una relacin
estadsticamente significativa entre Ventas y Experiencia en los vendedores.
6.2.5.1. Intervalo de confianza para la prediccin.
Despus de haber decidido que existe regresin lineal simple poblacional o que la lnea
de regresin muestral es vlida para realizar predicciones, podemos utilizarla para:
i)
Predicir la media Y/X , dado X = xo , o
ii)
Predecir una nueva observacin de Y dado un valor xo de X.
120
El intervalo de confianza del (1- ) x100% para la respuesta media Y/X o se obtiene
mediante:
1 ( x0 x) 2
1 ( x0 x) 2
y 0 t ( / 2,n 2) S n
Y / x0 y 0 t ( / 2,n2) S n
n
n
2
( xi x)
( xi x) 2
i 1
Aqu,
(x
i 1
i 1
x) 2 xi2 n( x) 2
i 1
y 0 t (1 / 2,n 2) S 1
( x x) 2
( x x) 2
1
1
n 0
y 0 y 0 t (1 / 2,n 2) S 1 n 0
n
n
( xi x) 2
( xi x ) 2
i 1
i 1
121
Se define por:
-
SCE
SCT
R2 1
CME
CMT
determinacin : R2 y R 2 .
Ejemplo 4.- Con los datos del ejemplo 1, calcule el coeficiente de determinacin R2 .
Interprete su resultado.
Solucin. Del ejemplo 1 resultan:
SCT = 46.0 ,
SCE = 44.1 ,
Entonces:
R2 1
R2 1
SCE
1 .9
1
0.9587
SCT
46.0
CME
1.9 / 3
1
0.9450
CMT
46.0 / 4
122
123
Para cada frecuencia observada en una celda hay una frecuencia esperada que se calcula
a partir de la hiptesis nula especificada y que se supone verdadera.
La prueba.
La hiptesis nula Ho, consiste en suponer que las dos variables categricas son
independientes o que los mtodos de clasificacin de filas y de columnas son
independientes.
La frecuencia esperada correspondiente en cada una de las rc celdas se obtiene mediante
la expresin:
Frecuencia Esperada
Nota.- Cuando la muestra es pequea, digamos menor de 50, o cuando algunas o todas
la s frecuencias esperadas de las celdas son menores que 5, o cuando el grado de
libertad es igual a 1, debe aplicarse la correccin de Yates. El calculo de Chi-cuadrado
corregida por Yates se efecta por:
( oi ei 0.5 ) 2
2
cal
ei
i
Nota.- Mtodo del valor P en la prueba.
En los software estadsticos se obtiene el valor P (P-value), probabilidad conocida
como la significacin de la prueba. El mtodo del valor P, es otra forma de establecer la
2
2
regla de decisin, cuyo clculo se determina como: P P cal .
Mquina
Turnos)
124
Total
Maana
75
90
85
250
Tarde
70
85
70
225
Noche
95
85
75
255
Total
240
260
230
730
Solucin.
1.- Hiptesis:
Ho: El nmero de objetos defectuosos producidos por las mquinas no depende de
los turnos.
H1: El nmero de objetos defectuosos producidos por las mquinas si depende de
los turnos.
2.- Nivel de significancia.- =0.05
3.- Estadstica de prueba.- Se utilizar el estadstico chi cuadrado:
2
cal
(o i ei ) 2
ei
i
Mquina
Total
Turnos)
A
125
Maana
75 (82.19)
90 (89.04)
85 (78.77)
250
Tarde
70 (73.97)
85 (80.14)
70 (70.89)
225
Noche
95 (83.84)
85 (90.82)
75 (80.34)
255
Total
240
260
230
730
Luego,
2
cal
ei
82.19
89.04
78.77
3.87
83.84
90.82
80.34
6.- Decisin.- Dado que 3.87 < 9.49, no se rechaza H 0 , y se concluye que el nmero
de objetos defectuosos producidos por las mquinas no depende de los turnos.
Nota.- Mediante el software Estadstico Statgraphics, da como salida la siguiente tabla
de contingencias 3x3.
Frequency Table
Maana
Tarde
Noche
Column
Total
Mquina 1
Mquina 2
Mquina 3
---------------------------------------|
75 |
90 |
85 |
|
82.19 |
89.04 |
78.77 |
---------------------------------------|
70 |
85 |
70 |
|
73.97 |
80.14 |
70.89 |
---------------------------------------|
95 |
85 |
75 |
|
83.84 |
90.82 |
80.34 |
---------------------------------------240
260
230
Row
Total
250
225
255
730
Cell contents:
Observed frequency
Expected frequency
126
Chi-Square Test
-----------------------------------------Chi-Square
Df
P-Value
-----------------------------------------3.87
4
0.4242
------------------------------------------