Capitulo 6

Cap. 6.- Relacin entre variables.
109
Captulo 6.
RELACIONES ENTRE VARIABLES.
6.1. El coeficiente de correlacin de Pearson.
Definicin.- Es una prueba estadstica para analizar la relacin entre dos variables
medidas en un nivel por intervalos o de razn.
Hiptesis a probar: Correlacional, del tipo A mayor X, mayor Y, A mayor X, menor
Y, Altos valores en X estn asociados con altos valores en Y, Altos valores en X se
asocian con bajos valores de Y.
La prueba en si no considera a una variable como independiente y a otra como
dependiente, ya que no se trata de una prueba que evala la causalidad. La nocin de
causa-efecto (independiente-dependiente) se puede establecer tericamente, pero la
prueba no considera dicha causalidad.
El coeficiente de correlacin de Pearson ( r ), se calcula a partir de las puntuaciones
obtenidas en una muestra en dos variables. Se relacionan las puntuaciones obtenidas de
una variable con las puntuaciones obtenidas de otra variable, en los mismos sujetos.
n
n xi y i ( xi )( y i )
i 1
i 1
n
2
2
2
2
n
x
(
x
)
n
y
(
i i i yi )
i 1
i 1
i 1
i 1
El coeficiente r de Pearson puede variar de 1.00 a + 1.00 donde:

-1.00 = Correlacin negativa prefecta.
-0.90 = Correlacin negativa muy fuerte.
-0.75 =.Correlacin negativa considerable.
-0.50 = Correlacin negativa media.
-0.10 =.Correlacin negativa dbil.
0.00 = No existe correlacin alguna entre las variables.
+0.10 =.Correlacin positiva dbil.
+0.50 = Correlacin positiva media.
+0.75 =.Correlacin positiva considerable.
+0.90 = Correlacin positiva muy fuerte.
+1.00 = Correlacin positiva prefecta.
El signo indica la direccin de la correlacin (positiva o negativa) y el valor numrico,
la magnitud de la correlacin.
6.2. Regresin lineal y correlacin.
110
En muchas aplicaciones estadsticas se deben resolver problemas que contienen un

conjunto de variables y que sabe que existe alguna asociacin entre ellas. En este
conjunto de variables muy a menudo se tiene una sola variable dependiente (o
respuesta) Y, que depende de una o ms variables independientes (o de regresin) X1,
X2, ... , Xk , como por ejemplo el salario, depende de : aos de experiencia, grado de
instruccin y sexo.
La variable dependiente se mide con un error que no se controla en el experimento, por
tanto, Y es una variable aleatoria. Las variables independientes X1, X2, ... , Xk se
miden con un error despreciable, que en la mayora de los casos se controla en el
experimento, y por lo tanto, no tienen la propiedad de ser variables aleatorias.
Existen dos formas distintas pero relacionadas del estudio de la asociacin entre
variables a partir de una muestra aleatoria. La primera forma, es determinar una
relacin funcional de la variable dependiente Y con respecto a una o ms variables
independientes con el fin de predecir valores de Y. Este mtodo es el anlisis de
regresin. La segunda forma de estudio de la asociacin entre variables, es, medir el
grado de relacin entre ellas, mediante un coeficiente o ndice. A esta tcnica se
denomina anlisis de correlacin.
Los mtodos de regresin y correlacin entre variables se clasifican por el nmero de
variables independientes, en simples y mltiple. El anlisis de asociacin se denomina
simple , si hay una sola variable independiente, si hay dos o ms variables
independientes se denomina el anlisis de asociacin Mltiple.
Por el tipo de funcin matemtica que se puede ajustar a los datos, la asociacin de las
variables puede ser lineal o no lineal, como por ejemplo: parbola, polinomio,
exponencial, etc.
6.2.1.- Modelo de regresin lineal simple.
Consideremos una variable dependiente Y con una sola variable independiente X.
Representemos una muestra aleatoria de tamao n de (X, Y) por el conjunto de pares de
datos: (x i , y i ) / i 1,2,..., n .
Denotaremos por Y/ X la variable aleatoria Y dependiente de X. Su media y varianza se
2
denotan respectivamente por Y / X y por Y / X . En particular el smbolo Y/ xi
representa a la variable aleatoria Yi cuando X = xi .
Supuestos.Los supuestos para el modelo de regresin lineal simple son:
1) Igualdad de varianzas (Homoscedasticidad).
Para cada valor xi de la variable independiente X, la distribucin de la variable aleatoria
2
dependiente Yi tiene media Y/ x y varianza Y / xi . Se supone que cada una de estas
varianzas son iguales a la varianza comn 2 , denominada varianza de la regresin.
i
111
2) Independencia.
Se supone que las Yi son variables aleatorias estadsticamente independientes.
3) Linealidad.
Se supone que la relacin de Y con X es lineal, es decir todas las medias Y/ x deben
estar en una lnea recta denominada lnea de regresin poblacional, cuya ecuacin es,
(ver figura 6.1)
i
Y/X X
Y/X X
ei
ei
Yi
X
X1
X2
X3
X4
Fig. 6.1. Suposiciones en regresin.
En la ecuacin de regresin poblacional los coeficientes de regresin y son

parmetros que se estiman a partir de los datos de la muestra.
El valor de es la ordenada en el origen e indica el valor de Y cuando X = 0. El valor
de es la pendiente de la ecuacin de regresin poblacional e indica el cambio
promedio en Y correspondiente a un incremento unitario en X. El signo de
tambin indica el tipo de tendencia (positiva o negativa ) de Y con respecto a X.
Cada valor individual Yi difiere de la media condicional Y/ x i en el trmino
E i Yi Y / x , denominado error. Las variables Ei , son entonces, variables aleatorias
independientes con media cero y varianza 2. Luego, el modelo de regresin lineal
simple puede ser expresado por:
i
Yi Y / x i E i x i E i
La estimacin de la ecuacin de regresin poblacional Y/X X es la ecuacin de

regresin muestral:
a bX
Y
en donde a y b son las estimaciones de los parmetros y respectivamente.
112
4) Normalidad.
Se supone que cada variable aleatoria dependiente Yi tiene distribucin normal con
media Y/ x y varianza 2. En consecuencia, E i ~ N(0, 2 ) .
i
6.2.2.- El diagrama de dispersin

Es un grfico que permite detectar la existencia de una relacin entre dos variables. Si la
tendencia es lineal se puede ajustar una lnea recta al diagrama de dispersin.
(a) Lineal directa
(b) Lineal inversa
(c) Curvilnea directa
X
(e) Lineal inversa
con ms dispersin
X
(f) Ninguna relacin
Fig. 6.2.- Diagramas de dispersin: Relaciones entre X e Y.
En las figuras (a) , (b) y (e) los datos visualizan una relacin lineal entre las variables X
e Y. En las figuras (c) y (d) los datos visualizan una relacin, pero, una relacin no
lineal, y en la figura (f) los datos visualizan ninguna relacin vlida entre las variables.
6.2.3.- Estimacin de la ecuacin de regresin poblacional.
X
Y
X
(d) Curvilnea inversa
113
La estimacin de la ecuacin de regresin poblacional Y/X X es la ecuacin de

regresin muestral:
a bX
Y
es una estimacin de Y/X , a y b son las estimaciones de los parmetros.

en donde Y
Se denotar por y i el valor de Y cuando X = xi .
a bX , a partir de los datos de la
para determinar la ecuacin de regresin muestral Y
muestra, utilizaremos el mtodo de mnimos cuadrados. Esto es, se deben hallar a y b de
modo que:
n
i 1
i 1
i 1
SCE (Suma de Cuadrados de los Errores) ei2 ( yi y i ) 2 ( yi a bxi ) 2 mnimo

Este requerimiento se cumple, si a y b se determinan resolviendo el siguiente sistema de
ecuaciones normales:
n
yi an b xi
i
x y
i
i 1
n
i 1
i 1
a xi b xi2
n
de donde se obtiene:
i 1
n
i 1
n xi yi xi yi
i 1
n xi2 ( xi ) 2
i 1
i 1
a y bx
El valor constante a de la ecuacin de regresin muestral, es la ordenada en el origen.

cuando X cambia una unidad de
El valor de la pendiente b es el cambio promedio en Y
medicin.
Ejemplo 1.- En la Empresa comercial ABC, se desea determinar la relacin lineal
simple entre la experiencia del vendedor y las unidades vendidas durante un mes. Se
seleccionan 5 vendedores al azar, los datos registrados se presentan a continuacin.
VENDEDOR
CARLOS PEDRO JOSE JUAN MANUEL
EXPERIENCIA
(aos):X
3
1
2
5
4
VENTAS
(unidades) : Y
9
5
7
14
10
a) Trazar el diagrama de dispersin.

b) Determinar la lnea de regresin muestral de mnimos cuadrados.
c) Interpretar el valor de la pendiente.
d) Estimar la venta que correspondera a un vendedor con 6 aos de experiencia.
114
Solucin
Ventas (unidades) Y
a) El diagrama de dispersin es la figura 6.3, obtenida mediante el programa

STATGRAPHICS.
16
14
12
10
8
6
4
2
0
0
2
3
Experiencia (aos) X
Fig. 6.3.
b) De los datos de la muestra resultan:
Experiencia (X)
3
Ventas (Y)
9
X2
9
XY
27
14
14
25
70
4
15
10
45
16
55
40
156
x i 15 ,
i 1
y i 45 ,
i 1
x 3
n
i 1
n
i 1
n x i y i xi y i
i 1
n xi2 ( xi ) 2
i 1
x i2 55
i 1
x y
i 1
y9
5(156) (15)(45)
2.1
5(55) (15) 2
i 1
a y b x 9 2.1 3 2.7
2.7 2.1 X
As, la lnea de regresin estimada o muestral es: Y
156 ,
115
c) El valor b = 2.1 de la pendiente indica que por cada ao de experiencia, la venta se

incrementa en 2.1 unidades.
Nota.- Utilizando el Software Statgraphics versin 5.0, nos proporciona el siguiente
resultado para el mismo ejemplo 1.
Regression Analysis - Linear model: Y = a + b*X
----------------------------------------------------------------------------Dependent variable:
Ventas
Independent variable: Experiencia
---------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
2.7
0.834666
3.23483
0.0480
Slope
2.1
0.251661
8.34455
0.0036
----------------------------------------------------------------------------
La salida muestra el resultado de ajustar un modelo lineal para describir la relacin entre
Ventas y Experiencia. La ecuacin del modelo lineal ajustado es:
Ventas = 2.7 + 2.1 * Experiencia
d)
6.2.4.- Estimacin de la varianza de la regresin poblacional 2.
a bX nos interesa saber su
Una vez halada la lnea recta de regresin muestral, Y
utilidad. La utilidad principal es predecir valores de Y para valores determinados de X.
Si se hace prediccin nos interesa saber, qu tan buena o confiable es esa prediccin?.La respuesta a esta pregunta depende de la variabilidad de los valores de Y con respecto
a la recta de regresin.
Una medida que indica el grado de variabilidad o dispersin en torno a la lnea de
regresin es la varianza de la regresin poblacional, que se denota por 2 o por Y2 / X
y se define por:
N
2 E(Y Y/X )
(y
i 1
Y/X ) 2
N
donde N es el tamao de la poblacin. La raz cuadrada es la desviacin estndar de

la regresin en la poblacin.
Una estimacin insesgada de 2 es la varianza de la regresin muestral que se denota
2
Y/X y se define por:
por S2 o
n
SCE
S2
n2
(y
i 1
2
y
i)
n-2
116
en donde el numerador, es la suma de cuadrados de los errores (SCE) alrededor de la

lnea de regresin y el denominador , n-2, representa los grados de libertad.
Para el clculo de S2 se utiliza tambin la siguiente expresin:
S2
SCE
n2
i 1
i 1
i 1
y i2 - a y i - b x i yi
n-2
Y / X , es la desviacin estndar muestral de la regresin. Este

La raz cuadrada S o
valor se denomina tambin error estndar de la estimacin.
Mientras ms pequeo sea el valor de la varianza S2 o de la desviacin estndar S, ms

cercanos a la lnea de regresin estarn los valores de la variable Y. Sin embargo, la
interpretacin ms precisa de la varianza muestral de la regresin se har con el
coeficiente de determinacin.
Ejemplo 2.- Con los datos delejemplo1, calcular la desviacin estndar muestral de la
regresin (el error estndar de estimacin).
Solucin.
5
Del ejemplo1, se obtienen: n = 10, a = 2.7, b = 2.1 ,
y i 45 ,
i 1
x y
i 1
)
(YY
)2
(YY
3
1
2
5
4
9
5
7
14
10
9
4.8
6.9
13.2
11.1
0.0
0.2
0.1
0.8
-1.1
0.00
0.04
0.01
0.64
1.21
5
Y
i 1
S2
(y
i 1
2
y
i)
n-2
El error estndar de estimaciones:
1.90
0.6334
3
0.6334 0.7958
unidades.
Nota.- Utilizando la expresin alternativa para el clculo de S2, resulta:
S2
i 1
i 1
i 1
y i2 - a y i - b x i yi
n -2
156
I 2 1.90
Y
Entonces la varianza estimada es:

n
451 2.7 45 2.1 156 1.90
0.6334
3
3
117
Entonces el error estndar de estimacin es:
0.6334 0.7958
6.2.5 Inferencias acerca de los coeficientes de regresin.

No trataremos las inferencias del parmetro en base al valor de a estimado de la
muestra, por que a menudo carece de importancia prctica pues es la ordenada en el
origen y representa la interseccin de Y cuando X = 0. Nos referiremos a las inferencias
acerca de la pendiente de regresin .
Antes de utilizar la ecuacin de regresin muestral para realizar predicciones, se debe
primero determinar si existe realmente regresin poblacional. Si no existe regresin en
la poblacin, entonces, la pendiente poblacional debera ser igual a cero. Debido a
variaciones muestrales, la pendiente de la regresin muestral b puede asumir valores
positivos o negativos, pero la pendiente poblacional podra ser cero. Si es as, la
ecuacin de regresin muestral no se puede utilizar para hacer preediciones vlidas. A
partir de los datos de la muestra, se va determinar si es igual a cero o no lo es.
Para verificar si = 0 se pueden utilizar tres mtodos: Intervalos de confianza, Prueba
de hiptesis y Anlisis de Varianza (ANVA).
Aqu utilizaremos suposicin 4 hecha en el modelo de regresin poblacional, es decir
que cada variable aleatoria dependiente Yi tiene distribucin normal con media Y/ x y
varianza 2., o que cada E i ~ N(0, 2 ) .
i
Anlisis de varianza para .

El anlisis de varianza es uno de los mtodos que se utiliza probar la significacin de la
ecuacin de regresin muestral. Es una prueba F de alternativa bilateral.
Las hiptesis nula y alternativa en este caso son respectivamente:
H 0 : = 0 contra H 0 : 0
La estadstica F de la prueba se obtiene de la siguiente identidad de sumas de cuadrados:
n
( y
i 1
y )2
( y
i 1
SCT
y i ) 2
SCE
( y
i 1
y )2
SCR
SCT ( y i y ) 2 se denomina suma de cuadrados total, refleja la variabilidad de los

i 1
valores de Y con respecto a la media
y.
SCE ( y i y i ) 2 es la suma de cuadrados de los errores, o no explicada.

i 1
n
SCR ( y i - y ) 2 se denomina suma de cuadrados explicado por la regresin, refleja

i 1
la cantidad de variabilidad de los valores de Y explicada por la recta de regresin.
118
La variable aleatoria F definida por: F
SCR / 1
CMR
~ F(1, n 2)
SCE / (n 2)
CME
Dado el nivel de significacin , y los grados de libertad 1 y (n-2), en la tabla de

probabilidades F, se encuentra el valor critico F ( 1 , 1 , n 2 )
Se rechaza la hiptesis nula H 0 : = 0 , si el valor calculado de F, es mayor que el valor
critico F ( 1 , 1 , n 2 ). No se rechaza H 0 en caso contrario.
La prueba de la hiptesis nula H.0: = 0 se resume en la siguiente tabla de anlisis de
varianza (ANVA):
ANVA para H.0: = 0
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
Regresin
SCR
CMR = SCR / 1
F
calculada
Error
Total
SCE
SCT
n-2
n-1
CME.= SCE / (n-2)
CMR
CME
Las sumas de cuadrados se obtienen utilizando las expresiones:

n
SCT y i2 n( y) 2
i 1
SCR b
x y
i 1
n( x )( y)
SCE SCT SCR
Ejemplo 3.- Con los datos del ejemplo 1, mediante el mtodo de anlisis de varianza
probar la significancia de la ecuacin de regresin muestral, al nivel de significancia del
5%.
Solucin .1) Hiptesis : H 0 : = 0 contra H 0 : 0
2) Nivel de significancia : = 0.05
3) Estadstica de prueba : F
CMR
~ F(1, 3) , donde n = 5
CME
4) Regin crtica: Para el nivel de significancia = 0.05 y los grados de libertad 1 y 3,

en la tabla F se encuentra el valor critico F ( 0.95 , 1 , 3 ).= 10.1
119
se rechaza H 0 si el valor calculado de F > 10.1. Se acepta en caso contrario.

5.- Clculos: De los datos se obtiene:
n
SCT y i2 n( y) 2 451 5 (9) 2 46

i 1
SCR b
x y
i 1
n( x )( y) 2.1 156 5(3)(9) 44.1
SCE SCT SCR 46 - 44.1 1.9
La tabla de anlisis de varianza es:

ANVA para H.0: = 0
Fuente de
variacin
Regresin
Suma de
cuadrados
44.1
Grados de
libertad
1
Error
Total
1.9
46.0
3
4
Cuadrados
medios
CMR = 44.1
CME = 0.6334
F
calculada
F = 69.624
6.- Decisin.- Dado que F = 69.624 > 10.1, se rechaza H 0. Estos resultados reflejan la
validez del modelo de regresin poblacional entre aos de experiencia y ventas.
Nota.- Observar que la estimacin de la varianza 2 es S2 = CME = 0.6334.
Nota.- Mediante el paquete Estadstico Statgraphics, resulta el siguiente anlisis de
varianza para = 0.
Analysis of Variance
---------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
---------------------------------------------------------------------------Model
44.1
1
44.1
69.63
0.0036
Residual
1.9
3
0.633333
---------------------------------------------------------------------------Total (Corr.)
46.0
4
Puesto que el valor P-value = 0.0036 < 0.05, se concluye que existe una relacin
estadsticamente significativa entre Ventas y Experiencia en los vendedores.
6.2.5.1. Intervalo de confianza para la prediccin.
Despus de haber decidido que existe regresin lineal simple poblacional o que la lnea
de regresin muestral es vlida para realizar predicciones, podemos utilizarla para:
i)
Predicir la media Y/X , dado X = xo , o
ii)
Predecir una nueva observacin de Y dado un valor xo de X.
120
Intervalo de confianza de Y/X

o el valor de Y0 a bX ,
Sea Y/X o el valor de la media Y/X cuando X = xo y sea y
o es un valor de la variable Y0 a b(x o ) ).
cuando tambin X = xo (es decir y
El intervalo de confianza del (1- ) x100% para la respuesta media Y/X o se obtiene
mediante:
1 ( x0 x) 2
1 ( x0 x) 2
y 0 t ( / 2,n 2) S n
Y / x0 y 0 t ( / 2,n2) S n
n
n
2
( xi x)
( xi x) 2
i 1
Aqu,
(x
i 1
i 1
x) 2 xi2 n( x) 2
i 1
Intervalo de confianza para y0

o el valor
Sea y0 el valor individual de la variable Y0 (xo ) , cuando X = xo y sea y
de Y0 a bX , cuando X = xo.
El intervalo de confianza del (1- ) x100% para una sola respuesta y0 se obtiene
mediante:
y 0 t (1 / 2,n 2) S 1
( x x) 2
( x x) 2
1
1
n 0
y 0 y 0 t (1 / 2,n 2) S 1 n 0
n
n
( xi x) 2
( xi x ) 2
i 1
i 1
Ejemplo 4. Con los datos del ejemplo 1, determinar:

a) El intervalo de confianza del 95% para la respuesta media Y/X o cuando x0=6.
b) El intervalo de confianza del 95% para una sola respuesta y0 cuando x0=6.
6.2.6.- Correlacin.- La medida del grado de asociacin entre dos variables se
denomina coeficiente de correlacin simple. El coeficiente de correlacin poblacional
entre una sola variable independiente y la variable dependiente se representa por . Los
supuestos son los siguientes:
1.- Tanto X como y son variables aleatorias. No tienen que ser designadas como
dependientes o independientes.
2.- La poblacin bivariante es normal. Una poblacin normal bivariante es aquella en la
que X e Y estn distribuidas normalmente. Las medias respectivas son X , Y , y 2X ,
2Y .
3.- La relacin entre X e y es lineal.
Coeficiente de determinacin
121
El coeficiente de determinacin poblacional se denota por 2 y se define en la forma :

2Y / X
2
1 2
X
2
en donde: Y / X denotada tambin por 2 es la varianza de la regresin lineal y , 2Y
es la varianza de Y.
Dado que 2Y / X < 2Y , se tiene que : 0 2 1.
Cuando 2 = 0 , la recta de regresin es horizontal y por tanto no se puede predecir Y a

partir de X. Cuando 2 = 1, hay relacin lineal perfecta entre X e Y.
Coeficiente de determinacin muestral
Para datos muestrales, el coeficiente de determinacin se denota por R 2. A partir de la
particin de suma de cuadrados:
SCT = SCR + SCE
R2 1
Se define por:
-
SCE
SCT
Cuando n es pequeo, el coeficiente de determinacin R2 es sesgado

positivamente. Para corregir este sesgo se calcula el coeficiente de
determinacin ajustado R 2 que se define por :
R2 1
CME
CMT
donde CME = SCE / (n - 2) y CMT = SCT / (n 1).

Cuando se halla la ecuacin de regresin, es aconsejable calcular ambos coeficientes de
determinacin : R2 y R 2 .
Ejemplo 4.- Con los datos del ejemplo 1, calcule el coeficiente de determinacin R2 .
Interprete su resultado.
Solucin. Del ejemplo 1 resultan:
SCT = 46.0 ,
SCE = 44.1 ,
SCE = SCT SCR = 46.0 44.1 = 1.9
Entonces:
R2 1
R2 1
SCE
1 .9
1
0.9587
SCT
46.0
CME
1.9 / 3
1
0.9450
CMT
46.0 / 4
122
El valor de R2 y R 2 se interpretan en la misma forma. As, R2 = 0.9587, significa que el

95.87% de la variacin de la variable dependiente (Ventas) es explicada por la regresin
lineal. Otra forma de interpretar es que el ajuste de la recta de regresin a los puntos de
la muestra es muy bueno.
Nota.- Mediante el software Statgraphics, se obtiene el siguiente resultado:
Correlation Coefficient = 0.97913
R-squared = 95.8696 percent
R-squared (adjusted for d.f.) = 94.4928 percent
Standard Error of Est. = 0.795822
El valor del coeficiente de correlacin r = 0.97913, indica a una relacin relativamente

fuerte entre las variables (Experiencias y Ventas).
Este resultado, tambin nos proporciona el error estndar de estimacin igual a
0.795822.
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
529.717
1
529.717
226.82
0.0000
Residual
18.6832
8
2.3354
----------------------------------------------------------------------------Total (Corr.)
548.4
9
Correlation Coefficient = 0.982818
R-squared = 96.5931 percent
6.2. - Tablas de contingencia y pruebas Chi-cuadrado.

Bsicamente una tabla de contingencia se obtiene al registrar los datos observados de la
muestra aleatoria en doble clasificacin.
Una tabla de contingencia de r filas (o renglones) y c columnas, denominada tambin
tabla de contingencia de dimensin r x c, contiene en cada celda la frecuencia observada
de la muestra que corresponde a dos variables clasificadas por categoras.
En las pruebas de hiptesis con tablas de contingencia, no se hace ninguna suposicin
acerca de la distribucin de probabilidades de los datos. Con las tablas de contingencias
se ejecutara la prueba de hiptesis: Prueba de independencia de dos variables
estadsticas.
Prueba de independencia.
El procedimiento dela prueba Chi-cuadrado se utilizar para probar la independencia de
dos variables categricas. Las pruebas de hiptesis de independencia implican dos
variables categricas y lo que se prueba es la suposicin de que las dos variables son
estadsticamente independientes.
123
Para cada frecuencia observada en una celda hay una frecuencia esperada que se calcula
a partir de la hiptesis nula especificada y que se supone verdadera.
La prueba.
La hiptesis nula Ho, consiste en suponer que las dos variables categricas son
independientes o que los mtodos de clasificacin de filas y de columnas son
independientes.
La frecuencia esperada correspondiente en cada una de las rc celdas se obtiene mediante
la expresin:
Frecuencia Esperada
total de fila i total de columna j

n
Con las frecuencias observadas 0i y las frecuencias esperadas ei , se calcula la

Estadstica:
(o ei ) 2
2
cal
i
ei
i
en donde la suma se extiende a todas las rc celdas en la tabla de contingencia r x c.
Dado un nivel de significancia , en la tabla chi-cuadrado con (r-1)(c-1) grados de
2
libertad se encuentra el valor crtico 1 , (r 1 )(c 1 ) .
2
2
Si cal 1 , (r 1 )(c 1 ) , se rechaza Ho, en caso contrario se aceptar Ho.
Nota.- Cuando la muestra es pequea, digamos menor de 50, o cuando algunas o todas
la s frecuencias esperadas de las celdas son menores que 5, o cuando el grado de
libertad es igual a 1, debe aplicarse la correccin de Yates. El calculo de Chi-cuadrado
corregida por Yates se efecta por:
( oi ei 0.5 ) 2
2
cal
ei
i
Nota.- Mtodo del valor P en la prueba.
En los software estadsticos se obtiene el valor P (P-value), probabilidad conocida
como la significacin de la prueba. El mtodo del valor P, es otra forma de establecer la
2
2
regla de decisin, cuyo clculo se determina como: P P cal .
Si el valor de P < , se rechaza Ho, en caso contrario se acepta Ho.

Ejemplo 5.- En un proceso de produccin se registro el numero de objetos defectuosos
clasificados por turnos de produccin y por mquinas de produccin. Las frecuencias
observadas se registran en la siguiente tabla de contingencia 3 x 3 . Verificar al nivel de
significancia =0.05 si el numero de objetos defectuosos producidos por las mquinas
es independiente de los turnos de produccin.
Tabla de contingencia 3 x 3.
Mquina
Turnos)
124
Total
Maana
75
90
85
250
Tarde
70
85
70
225
Noche
95
85
75
255
Total
240
260
230
730
Solucin.
1.- Hiptesis:
Ho: El nmero de objetos defectuosos producidos por las mquinas no depende de
los turnos.
H1: El nmero de objetos defectuosos producidos por las mquinas si depende de
los turnos.
2.- Nivel de significancia.- =0.05
3.- Estadstica de prueba.- Se utilizar el estadstico chi cuadrado:
2
cal
(o i ei ) 2
ei
i
que se distribuye aproximadamente como chi-cuadrado con (r-1)x(c-1) =(3-1) x (3-1) = 4

grados de libertad.
4.- Regin crtica.- Para el nivel de significancia =0.05 y con 4 grados de libertad, en
2
la tabla chi cuadrado se encuentra el valor crtico 0.95, 4 9.49 . Se rechazar H 0 si
2
el valor calculado cal es mayor que 9.49.
5.- Clculos.- Las frecuencias observadas y las esperadas (parntesis) se dan en la
siguiente tabla.
Frecuencias observadas y esperadas.
Mquina
Total
Turnos)
A
125
Maana
75 (82.19)
90 (89.04)
85 (78.77)
250
Tarde
70 (73.97)
85 (80.14)
70 (70.89)
225
Noche
95 (83.84)
85 (90.82)
75 (80.34)
255
Total
240
260
230
730
Luego,
2
cal
(oi ei ) 2 (75 82.19) 2 (90 89.04) 2 (85 78.77) 2

ei
82.19
89.04
78.77

(95 83.84) 2 (85 90.82) 2 (75 80.34) 2
3.87
83.84
90.82
80.34
6.- Decisin.- Dado que 3.87 < 9.49, no se rechaza H 0 , y se concluye que el nmero
de objetos defectuosos producidos por las mquinas no depende de los turnos.
Nota.- Mediante el software Estadstico Statgraphics, da como salida la siguiente tabla
de contingencias 3x3.
Frequency Table
Maana
Tarde
Noche
Column
Total
Mquina 1
Mquina 2
Mquina 3
---------------------------------------|
75 |
90 |
85 |
|
82.19 |
89.04 |
78.77 |
---------------------------------------|
70 |
85 |
70 |
|
73.97 |
80.14 |
70.89 |
---------------------------------------|
95 |
85 |
75 |
|
83.84 |
90.82 |
80.34 |
---------------------------------------240
260
230
Row
Total
250
225
255
730
Cell contents:
Observed frequency
Expected frequency
Para realizar la misma prueba de hiptesis de independencia, el estadstico de prueba

Chi-cuadrado, se tiene el siguiente resultado:
126
Chi-Square Test
-----------------------------------------Chi-Square
Df
P-Value
-----------------------------------------3.87
4
0.4242
------------------------------------------
Dado que el P-value = 0.4242 >0.05, no se rechaza H 0 , y se concluye que el nmero de

objetos defectuosos producidos por las mquinas no depende de los turnos.

Capitulo 6

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Capitulo 6

Uploaded by

Copyright:

Available Formats

Cap. 6.- Relacin entre variables.

El coeficiente r de Pearson puede variar de 1.00 a + 1.00 donde:

Cap. 6.- Relacin entre variables.

En muchas aplicaciones estadsticas se deben resolver problemas que contienen un

Cap. 6.- Relacin entre variables.

Fig. 6.1. Suposiciones en regresin.

En la ecuacin de regresin poblacional los coeficientes de regresin y son

La estimacin de la ecuacin de regresin poblacional Y/X X es la ecuacin de

en donde a y b son las estimaciones de los parmetros y respectivamente.

Cap. 6.- Relacin entre variables.

6.2.2.- El diagrama de dispersin

(a) Lineal directa

(b) Lineal inversa

(c) Curvilnea directa

Fig. 6.2.- Diagramas de dispersin: Relaciones entre X e Y.

6.2.3.- Estimacin de la ecuacin de regresin poblacional.

Cap. 6.- Relacin entre variables.

La estimacin de la ecuacin de regresin poblacional Y/X X es la ecuacin de

es una estimacin de Y/X , a y b son las estimaciones de los parmetros.

SCE (Suma de Cuadrados de los Errores) ei2 ( yi y i ) 2 ( yi a bxi ) 2 mnimo

El valor constante a de la ecuacin de regresin muestral, es la ordenada en el origen.

a) Trazar el diagrama de dispersin.

Cap. 6.- Relacin entre variables.

a) El diagrama de dispersin es la figura 6.3, obtenida mediante el programa

b) De los datos de la muestra resultan:

Cap. 6.- Relacin entre variables.

c) El valor b = 2.1 de la pendiente indica que por cada ao de experiencia, la venta se

donde N es el tamao de la poblacin. La raz cuadrada es la desviacin estndar de

Cap. 6.- Relacin entre variables.

en donde el numerador, es la suma de cuadrados de los errores (SCE) alrededor de la

Y / X , es la desviacin estndar muestral de la regresin. Este

Mientras ms pequeo sea el valor de la varianza S2 o de la desviacin estndar S, ms

Del ejemplo1, se obtienen: n = 10, a = 2.7, b = 2.1 ,

El error estndar de estimaciones:

Nota.- Utilizando la expresin alternativa para el clculo de S2, resulta:

Entonces la varianza estimada es:

451 2.7 45 2.1 156 1.90

Cap. 6.- Relacin entre variables.

Entonces el error estndar de estimacin es:

6.2.5 Inferencias acerca de los coeficientes de regresin.

Anlisis de varianza para .

SCT ( y i y ) 2 se denomina suma de cuadrados total, refleja la variabilidad de los

valores de Y con respecto a la media

SCE ( y i y i ) 2 es la suma de cuadrados de los errores, o no explicada.

SCR ( y i - y ) 2 se denomina suma de cuadrados explicado por la regresin, refleja

la cantidad de variabilidad de los valores de Y explicada por la recta de regresin.

Cap. 6.- Relacin entre variables.

La variable aleatoria F definida por: F

Dado el nivel de significacin , y los grados de libertad 1 y (n-2), en la tabla de

CME.= SCE / (n-2)

Las sumas de cuadrados se obtienen utilizando las expresiones:

SCE SCT SCR

4) Regin crtica: Para el nivel de significancia = 0.05 y los grados de libertad 1 y 3,

Cap. 6.- Relacin entre variables.

se rechaza H 0 si el valor calculado de F > 10.1. Se acepta en caso contrario.

SCT y i2 n( y) 2 451 5 (9) 2 46

n( x )( y) 2.1 156 5(3)(9) 44.1

SCE SCT SCR 46 - 44.1 1.9

La tabla de anlisis de varianza es:

Cap. 6.- Relacin entre variables.

Intervalo de confianza de Y/X

Intervalo de confianza para y0

Ejemplo 4. Con los datos del ejemplo 1, determinar: