You are on page 1of 28

Tema 3.

Comparaciones de dos poblaciones

Contenidos
I Hipotesis para la diferencia entre las medias de dos poblaciones:
muestras pareadas
I Hipotesis para la diferencia entre las medias de dos poblaciones:
muestras independientes
I Dos poblaciones normales con varianzas iguales (y desconocidas)
I Dos poblaciones normales con varianzas conocidas
I Dos poblaciones no normales y muestras grandes
I Dos poblaciones Bernoulli
I Hipotesis para la razon de las varianzas de dos poblaciones:
muestras independientes
Tema 3. Comparaciones de dos poblaciones

Objetivos de aprendizaje
Al finalizar este tema, debieras ser capaz de:
I Llevar a cabo un contraste de hipotesis para la diferencia de las
medias y para el cociente de las varianzas de dos poblaciones
I Construir intervalos de confianza para la diferencia o el cociente
I Diferenciar las situaciones en las que un contraste basado en
muestras pareadas es adecuado, de aquellas en las que se debe
aplicar un contraste basado en muestras independientes
I Calcular la potencia de un contraste y la probabilidad de un error de
Tipo II
Tema 3. Comparaciones de dos poblaciones

Referencias
I Newbold, P. Estadstica para administracion y economa
I Captulo 9 (9.6-9.9)
I Ross, S. Introduccion a la Estadstica
I Captulo 10
Introduccion

En este tema estudiamos el caso en el que en lugar de disponer de una


muestra aleatoria, tenemos dos muestras aleatorias de dos poblaciones, y
estamos interesados en contrastar:
I la diferencia entre las medias de las dos poblaciones
I en el caso de muestras pareadas
I y en el caso de muestras independientes
I el cociente entre las varianzas de las dos poblaciones
I en el caso de muestras independientes
Emplearemos los procedimientos introducidos en los Temas 1 y 2 para
construir intervalos de confianza y realizar contrastes de hipotesis para las
diferencias o cocientes de los parametros de las poblaciones indicados.
Contrastes para la diferencia entre dos medias: muestras
pareadas

Ejemplo: Se ha llevado a cabo un estudio sobre la relacion entre la


actividad cerebral mientras se ven anuncios en television y la capacidad
de la persona para recordar dichos anuncios. Se han mostrado anuncios
de dos marcas para diez productos a las personas en la muestra. Para
cada anuncio se ha medido la capacidad de cada persona para recordarlo
pasadas 24 h., y a cada anuncio de un producto se le han asignado las
etiquetas recuerdo fuerte o recuerdo debil. La siguiente tabla
muestra un ndice de la actividad cerebral de las personas que han visto
estos anuncios en el estudio.

producto: i 1 2 3 4 5 6 7 8 9 10
recuerdo fuerte: xi 137 135 83 125 47 46 114 157 57 144
recuerdo debil: yi 53 114 81 86 34 66 89 113 88 111
dif.: di = xi yi 84 21 2 39 13 20 25 44 31 33
Contrastes para la diferencia entre dos medias: muestras
pareadas
I Sea X una poblacion con media X e Y otra poblacion con media
Y .
I Disponemos de una muestra aleatoria de n observaciones pareadas
de ambas poblaciones, {(Xi , Yi )}. Denotaremos como

d1 = x1 y1 , d2 = x2 y2 , . . . , dn = xn yn

las n diferencias de valores con media d y cuasi desviacion tpica sd .


I Supondremos que la poblacion de las diferencias sigue una
distribucion normal.
I Contraste bilateral H0 : X Y = D0 frente a H1 : X Y 6= D0
I El estadstico del contraste es
D D0
T = H0 tn1
sD / n
I La region de rechazo (a un nivel de significacion ) es:

RR = {t : t < tn1;/2 o t > tn1;/2 }


Contrastes para la diferencia entre dos medias: muestras
pareadas
Estadstico del contraste:
Ejemplo: cont.
Poblacion: D D0
D = diferencia entre recuerdo T = tn1
sD / n
fuerte y debil
2 Valor observado del estadstico:
D N(X Y , D )

'
Muestra: d =
MAS: n = 10

210
10 = 21
14202210(21)2
D0 = 0
d = 21

t =
n = 10

sd = 1088 = 32.98
d D0

sd2 = 101 = 1088 sd / n
21
Objetivo: contrastar = = 2.014
32.98/ 10
D0
z}|{
H0 : X Y 0 frente a H1 : X Y > 0
(Contraste unilateral)
Contrastes para la diferencia entre dos medias: muestras
pareadas
Ejemplo: cont.
p-valor = P(T 2.014)
(0.025, 0.05) ya que
t9;0.05 t9;0.025
z }| { z }| { t=
1.833 < 2.014 < 2.262
2.014
Por tanto, como p-valor < = 0.05, pvalor
rechazamos la hipotesis nula a este =area
nivel.

Densidad tn1
||
1.833 2.262
Conclusion: La evidencia muestral apoya que en promedio la actividad cerebral
es mayor para el grupo con recuerdo fuerte que para el grupo con recuerdo
debil. Si la actividad cerebral promedio fuese igual para ambos grupos, la
probabilidad de obtener muestras tan extremas o mas que la observada estara
entre 0.025 y 0.05 (un valor bajo).
Contrastes para la diferencia entre dos medias: muestras
pareadas
Ejemplo: cont. En Excel: Ir al menu Datos, submenu Analisis de
datos, seleccionar la opcion: Prueba t para medias de dos muestras
emparejadas
Columnas A y B (datos), en amarillo se muestran el valor observado del
estadstico y el p-valor.
Contraste bilateral para la diferencia entre dos medias via
IC: muestras pareadas

Ejemplo: cont. Construir un intervalo de confianza al 95% para X Y .


 
sd sd
IC0.95 (X Y ) = d tn1;0.025 , d + tn1;0.025
n n
 
32.98 32.98
= 21 2.262 , 21 + 2.262
10 10
= (2.59, 44.59)

Como el valor 0 pertenece a este intervalo, no podemos rechazar la


hipotesis nula de la igualdad de las medias de las dos poblaciones a un
nivel de significacion de = 0.05.
Contrastes para la diferencia entre dos medias: muestras
normales independientes, varianzas de poblaciones iguales
I Sea X una poblacion con media X y varianza X2 , e Y otra poblacion con
media Y y varianza Y2
I ambas distribuidas normalmente

I con varianzas poblacionales desconocidas, pero iguales 2 = 2 = 2


X Y
I Muestras aleatorias de n1 observaciones de X y n2 observaciones de Y ,
independientes.
I Contraste bilateral H0 : X Y = D0 frente a H1 : X Y 6= D0
I El estadstico del contraste es

X Y D0
T = q H0 tn1 +n2 2
sp n11 + n12
donde el estimador de la varianza comun para las dos poblaciones es
(n1 1)sX2 + (n2 1)sY2
sp2 =
n1 + n2 2
Nota: grados de libertad = n1 + n2 2 (numero de observaciones de
las muestras menos dos - por tener que estimar X y Y )
I La region de rechazo (para un nivel de significacion ) es:
RR = {t : t < tn1 +n2 2;/2 o t > tn1 +n2 2;/2 }
Contrastes para la diferencia entre dos medias: muestras
normales independientes, varianzas de poblaciones iguales
Ejemplo: 9.8 (Newbold) Se estudia el efecto que la presencia de un moderador
puede tener en el numero de ideas generadas en un grupo de trabajo. Se
observan grupos de cuatro personas, con y sin moderador. En una muestra
aleatoria de cuatro grupos con moderador el numero promedio de ideas
generadas por grupo fue 78.0, con cuasi desviacion tpica muestral de 24.4.
Para una muestra independiente de cuatro grupos sin moderador el promedio
de ideas generadas fue 63.5, y su cuasi desviacion tpica fue 20.2. Suponiendo
que distribuciones normales con varianzas iguales, contraste la hipotesis nula
(para = 0.1) de igualdad de medias, frente a la alternativa de que la media
de la poblacion es mayor para grupos con moderador.
Poblacion 1: Poblacion 2:
X = numero de ideas en grupos Y = numero de ideas en grupos sin
con moderador moderador
X N(X , X2 ) X N(Y , Y2 )

' MAS: n1 = 4

Muestra: x = 78.0
sx = 24.4
' MAS: n2 = 4

Muestra: y = 63.5
sy = 20.2
Suponemos muestras normales independientes y X2 = Y2 = 2
Contrastes para la diferencia entre dos medias: muestras
normales independientes, varianzas de poblaciones iguales

Ejemplo: 9.8 (Newbold cont.) sp = 501.7 = 22.4
x y
t = p
Objetivo: contrastar sp 1/n1 + 1/n2

D0 78.0 63.5
= p = 0.915
22.4 1/4 + 1/4
z}|{
H0 : X Y = 0
frente a
Region de rechazo:
H1 : X Y > 0
(Test unilateral) 1.440
z }| {
Estadstico del contraste: RR0.1 = {t : t > t6;0.1 }
T = rX Y H tn +n 2
1 + 1 0 1 2
sp Como t = 0.915 / RR0.1 , no podemos rechazar la hipotesis
n1 n2
nula a un nivel del 10%.
Valor observado del estadstico:

D0 = 0 n1 = 4 n2 = 4
x = 78.0 sx = 24.4 y = 63.5 sy = 20.2 Conclusion: Los datos muestrales no
contienen suficiente evidencia para
(n1 1)sx2 + (n2 1)sy2 pensar que en promedio se generan mas
2
sp =
n1 + n2 2 ideas en grupos con moderador. Pero
(4 1)24.42 + (4 1)20.22
para tamanos muestrales tan pequenos
= el contraste tiene potencia baja y seran
4+42
necesarias diferencias muy grandes
= 501.7
entre las medias de las poblaciones para
rechazar la hipotesis nula.
Contrastes para la diferencia entre dos medias: muestras
normales independientes, varianzas de poblaciones iguales

Ejemplo: 9.8 (Newbold cont.) Construya un intervalo de confianza al


99% para X Y .
 r 
1 1
IC0.99 (X Y ) = x y tn1 +n2 2;0.005 sp +
n1 n2
r !
1 1
= 78.0 63.5 3.707 22.4 +
4 4
= (44.22, 73.22)

Como el valor 0 pertenece a este intervalo, no podemos rechazar la


hipotesis nula de igualdad de las medias de las dos poblaciones a un nivel
de significacion = 0.01.
Contrastes para la diferencia entre dos medias: muestras
grandes independientes o dos poblaciones normales con
varianzas conocidas
I Sea X una poblacion con media X y varianza X2 , e Y otra
poblacion con media Y y varianza Y2 .
I Muestras aleatorias de n1 observaciones de X y n2 observaciones de
Y , independientes, y
I Bien tanto n1 como n2 son grandes y X2 y Y2 son desconocidas,
I O X e Y siguen distribuciones normales y X2 y Y2 son conocidas
I Contraste bilateral H0 : X Y = D0 frente a H1 : X Y 6= D0
I El estadstico del contraste es:
I Bien
X Y D0
Z = r H0 , aprox. N(0, 1)
2
sX 2
sY
n1
+ n2
I O
X Y D0
Z = r H0 N(0, 1)
2
X 2
Y
n1
+ n2
I La region de rechazo (para un nivel de significacion ) es:
RR = {z : z < z/2 o z > z/2 }
Contrastes para la diferencia entre dos medias: muestras
grandes independientes o dos poblaciones normales con
varianzas conocidas
Ejemplo: 9.7 (Newbold) Se realiza un estudio entre auditores sobre la actividad
de las mujeres en su profesion. A los encuestados se les pide que den su opinion
con un valor entre uno (muy en desacuerdo) y cinco (muy de acuerdo) sobre la
afirmacion En auditora se asignan los mismos trabajos a las mujeres y a los
hombres. De una muestra de 186 auditores (varones) se obtuvo una respuesta
promedio de 4.059 con una cuasi desviacion tpica de 0.839. Para una muestra
independiente de 172 mujeres auditoras la respuesta promedio fue de 3.680 con
una cuasi desviacion tpica de 0.966. Contraste la hipotesis nula (para
= 0.0001) de que las medias de las dos poblaciones son iguales, frente a la
alternativa de que la media de la poblacion es mayor para auditores varones.
Poblacion 1: Poblacion 2:
X = respuesta de un auditor varon Y = respuesta de una mujer auditora
X X , X2 X Y , Y2

' MAS: n1 = 186

Muestra: x = 4.059
sx = 0.839
' MAS: n2 = 172

Muestra: y = 3.680
sy = 0.966
Contrastes para la diferencia entre dos medias: muestras
grandes independientes o dos poblaciones normales con
varianzas conocidas
Ejemplo: 9.7 (Newbold cont.)
Region de rechazo:

Objetivo: contrastar 3.75


D0
z }| {
RR0.0001 = {z : z > z0.0001 }
z}|{
H0 : X Y = 0
Como z = 3.95 RR0.0001 , rechazamos la hipotesis nula a
frente a
un nivel del 0.01%.
H1 : X Y > 0
(Contraste unilateral)

Estadstico del contraste: Conclusion: Los datos contienen una


Z = s X Y H , aprox. N(0, 1)
0
evidencia muy fuerte en favor de que
s2 s2
X + Y
n1 n2
la respuesta promedio entre los
Valor observado del estadstico: varones es mayor que entre las
mujeres - esto es, en promedio los
D0 = 0 n1 = 186 n2 = 172 varones estan mas convencidos que
x = 4.059 sx = 0.839 y = 3.680 sy = 0.966 las mujeres de que se asignan los
z =
x y mismos trabajos a las mujeres que a
los hombres.
q
sx2 /n1 + sy2 /n2

4.059 3.680
= q = 3.95
0.8392 /186 + 0.9662 /172
Contrastes para la diferencia entre dos medias: muestras
grandes independientes o dos poblaciones normales con
varianzas conocidas

Ejemplo: 9.7 (Newbold) Construya un intervalo de confianza al 95%


para X Y .
s
2 s 2
s x y
IC0.95 (X Y ) = x y z0.025 +
n1 n2
 p 
= 4.059 3.680 1.96 0.8392 /186 + 0.9662 /172
= (0.19, 0.57)

Como el valor 0 no pertenece a este intervalo, podemos rechazar la


hipotesis nula de igualdad de las dos medias poblacionales a un nivel de
significacion = 0.05.
Contrastes para la diferencia entre dos proporciones:
muestras grandes independientes
I Sea X Bernoulli(pX ) y sea Y Bernoulli(pY ), donde pX y pY son
dos proporciones poblacionales para los individuos que cumplan una
propiedad de interes.
I Muestras aleatorias de n1 observaciones de X y n2 observaciones de
Y , independientes, y
I tanto n1 como n2 son grandes
I Contraste bilateral H0 : pX pY = 0 frente a H1 : pX pY 6= 0
I El estadstico del contraste es:
pX pY
Z = r H0 , aprox. N(0, 1),
p0 (1 p0 ) n11 + 1
n2

donde
n1 pX + n2 pY
p0 =
n1 + n2
I La region de rechazo (para un nivel de significacion ) es:

RR = {z : z < z/2 or z > z/2 }


Contrastes para la diferencia entre dos proporciones:
muestras grandes independientes
Ejemplo: 9.9 (Newbold) En Investigacion de Mercados, es importante conseguir un
porcentaje de respuestas elevado para las encuestas. Para mejorar este porcentaje se
puede incluir una pregunta inicial de motivacion que aumente el interes del encuestado
por completarlo. Se han enviado cuestionarios con pregunta de motivacion sobre la
mejora los espacios de ocio en una ciudad, a una muestra de 250 hogares, obteniendo
101 respuestas. Otros cuestionarios identicos sin pregunta de motivacion se han
enviado a otra muestra independiente de 250 hogares, obteniendo 75 respuestas.
Contraste la hipotesis nula de que las dos proporciones poblacionales sean iguales,
frente a la alternativa de que la tasa de respuestas sea mas elevada cuando se incluye
pregunta de motivacion.
Poblacion 1: Poblacion 2:
X = 1 si una persona completa el Y = 1 si una persona completa el
cuestionario con pregunta de cuestionario sin pregunta de motivacion,
motivacion, y 0 en caso contrario y 0 en caso contrario
X Bernoulli(pX ) Y Bernoulli(pY )

' MAS: n1 = 250

Muestra: px = 101
250
= 0.404
'
Muestra: py =
MAS: n2 = 250

75
250
= 0.300
Contrastes para la diferencia entre dos proporciones:
muestras grandes independientes
Ejemplo: 9.9 (Newbold cont.) px py
z = r
p0 (1 p0 ) n1 + 1
n2
Objetivo: contrastar 1

H0 : pX = pY 0.404 0.300
= q ` 1 = 2.43
frente a 1
0.352(1 0.352) 250 + 250
H 1 : pX > pY
(Contraste unilateral) p-valor = P(Z z) = P(Z 2.43) = 0.0075

Estadstico del contraste: Como el p-value es muy pequeno, podemos


pX pY
Z = s H0 , aprox. N(0, 1) rechazar la hipotesis nula a cualquier nivel de
p0 (1p0 ) 1 + 1 significacion mayor que 0.0075.
n1 n2
Valor observado del estadstico:

n1 = 250 n2 = 250 Conclusion: Los datos muestrales


px = 0.404 py = 0.300
contienen una fuerte evidencia de
que al incluir una pregunta de
p0 =
n1 px + n2 py motivacion se obtiene una tasa de
n1 + n2 respuesta mas elevada que cuando
250(0.404) + (250)(0.300)
no se incluye.
=
250 + 250
= 0.352
Contrastes para la diferencia entre dos proporciones:
muestras grandes independientes

Ejemplo: 9.9 (Newbold cont.) Construya un intervalo de confianza al


95% para pX pY .
s !
1 1
IC0.95 (pX pY ) = px py z0.025 p0 (1 p0 ) +
n1 n2
s !
1 1
= 0.404 0.300 1.96 0.352(1 0.352) +
250 250
= (0.1877, 0.0203)

Como el valor 0 no pertenece a este intervalo, podemos rechazar la


hipotesis nula de igualdad de las proporciones de las dos poblaciones para
un nivel de significacion = 0.05.
Contrastes para el cociente de varianzas: muestras
normales

I Sea X una poblacion con media X y varianza X2 , e Y otra


poblacion con media Y y varianza Y2 ,
I ambas distribuidas normalmente
I Muestras aleatorias de n1 observaciones de X y n2 observaciones de
Y , independientes.
I Contraste bilateral H0 : X2 = Y2 (= 2 ) frente a H1 : X2 6= Y2
I El estadstico del contraste es
sX2
F = H0 Fn1 1,n2 1
sY2
I La region de rechazo (para un nivel de significacion ) es:

RR = {f : f < Fn1 1,n2 1;1/2 o f > Fn1 1,n2 1;/2 }


La distribucion F
X1 , X2 , . . . , Xn y Y1 , Y2 , Y3 , . . . , Ym


son dos conjuntos de variables
aleatorias independientes, con
Densidades F
distribucion N(0, 1). La variable
aleatoria (cociente de dos v.a.s
chi-cuadrado normalizadas)

1.2
1 Pn 2
i=1 Xi
F = n1 Pm

1.0
2
m i=1 Yi gl1=30 gl2=30
gl1=10 gl2=15

0.8
sigue una distribucion Fn,m con n y
m grados de libertad. Para el gl1=8 gl2=8
gl1=5 gl2=3

0.6
resultado de la transparencia
anterior:
2n1 1
z }| { 0.4

(n1 1)sX2
0.2

1
2
sX n 1 1
2
=H0 Fn1 1,n2 1
sY2 1 (n2 1)sY2
0.0

n2 1 2
| {z } 0 2 4 6 8

2n2 1
Contrastes para el cociente de varianzas: muestras
normales

Ejemplo: 9.10 (Newbold) Para una muestra de 17 bonos industriales


emitidos recientemente con calificacion AAA, la cuasi varianza de sus
vencimientos (en anos al cuadrado) fue de 123.35. Para otra muestra
independiente de 11 bonos industriales emitidos con calificacion CCC, la
cuasi varianza de sus vencimientos fue de 8.02. Si se denotan las
correspondientes varianzas poblacionales como X2 y Y2 , lleve a cabo un
contraste bilateral para compararlas al 5%.
Poblacion 1: Poblacion 2:
X vencimiento de bonos AAA (en anos) Y vencimiento de bonos CCC (en anos)
X N(X , X2 ) Y N(Y , Y2 )

' MAS: n1 = 17

Muestra: sx2 = 123.35


' MAS: n2 = 11

Muestra: sy2 = 8.02


Contrastes para el cociente de varianzas: muestras
normales
Ejemplo: 9.10 (Newbold cont.)
Region de rechazo: 0.402
z }| {
RR0.10 = {f : f < F16,10;10.05 }
Objetivo: contrastar
{f : f > F16,10;0.05 }
H0 : X2 = Y2 | {z }
frente a 2.83
H1 : X2 6= Y2 Nota: el cuantil F16,10;0.05 = 2.83
(Contraste bilateral) aparece en la tabla de la F, pero no
F16,10;10.05 . Para calcularlo
Estadstico del contraste:
s2 podemos emplear la propiedad de
F = sX2 H0 Fn1 1,n2 1 1
Y esta distribucion Fn,m; = Fm,n;1
Valor observado del estadstico:
Obtenemos
n1 = 17 n2 = 11
1 1
sx2 = 123.35 sy2 = 8.02 F16,10;10.05 = = = 0.402
F10,16;0.05 2.49
123.35
f = = 15.38 Vemos que f = 15.38 RR0.10 .
8.02
Conclusion: Existe una fuerte
evidencia de que las dos varianzas
poblacionales son distintas.
Contraste bilateral para el cociente de varianzas mediante
intervalos de confianza

Ejemplo: 9.10 (Newbold cont.) Construya un intervalo de confianza al


90% para el cociente de las varianzas.
 2  2
sx2

X sx 1 1
IC0.90 = ,
Y2 sy2 Fn1 1,n2 1;0.05 sy2 Fn1 1,n2 1;10.05
 
123.35 1 123.35 1
= ,
8.02 2.83 8.02 0.402
= (5.43, 38.26)

Como era de esperar por el resultado anterior, el valor 1 no pertenece a


este intervalo, y podemos rechazar la hipotesis nula de que las dos
varianzas poblacionales sean iguales, para un nivel de significacion
= 0.1.
Estadsticos pivotales

Parametro Hipotesis Estadstico del contraste

Diferencias nor- DD0


males
sD / n
tn1
Muestras pareadas
Pobls. normales X Y D0
r H0 tn1 +n2 2
Varianzas iguales sp 1 + 1
n1 n2

Pobls. normales X Y D0
X Y = D0 s H0 N(0, 1)
Vars. conocidas 2 2
X + Y
n1 n2
Pobls. no normales X Y D0
Vars. desconocidas s H0 aprox N(0, 1)
s2 s2
Muestras grandes X + Y
n1 n2
Pobls. Bernoulli pX pY
pX pY = 0 s H0 aprox N(0, 1)
Muestras grandes

p0 (1p0 ) 1 + 1
n1 n2
2
sX
X2 /Y2 = 1 Pobls. normales H0 Fn1 1,n2 1
s2
Y

Pregunta: Como definiras RR para contrastes unilaterales?

You might also like