Professional Documents
Culture Documents
Estadstica II
Prof. Andrs Sandoval H
Estadstica II
4. COMPROBACIN DE HIPTESIS
4.1. Definiciones, hiptesis nula, hiptesis alternativa, error tipo I,
error
tipo II,
nivel
de
significacin,
curva
operativa
caracterstica, potencia de una prueba, diferentes tipos de prueba
En los temas anteriores iniciamos el estudio de la inferencia estadstica.
Describimos la forma de seleccionar una muestra aleatoria y, con base en sta,
estimar el valor de un parmetro de la poblacin. En este tema continuaremos con
el estudio de la inferencia estadstica. Sin embargo, en lugar de calcular un rango
de valores dentro del cual se espera que se encuentre el parmetro de la
poblacin, se realizar una prueba de hiptesis acerca de una afirmacin sobre un
parmetro de la poblacin. Algunos ejemplos de afirmaciones que se podran
probar utilizando pruebas de hiptesis son:
-
El promedio de kilmetros que dura una llanta radial Tiger Pow con banda
de acero es de ms de 96,500.
Una familia tpica mexicana vive en el mismo domicilio durante ms 16.5
aos.
El salario inicial promedio para los egresados de las carreras de contadura
en Mxico es de $38,000 pesos al ao.
Advil elimina los dolores de cabeza en menos de 20 minutos.
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Paso 1
Paso 4
Establecer las
hiptesis
nula y alterna
Seleccionar un
nivel de
significancia
Formular la
regla de
decisin
Identificar y
calcular la
estadstica de
prueba
Paso 2
Paso 3
No rechazar
rechazar
No
H0
H
Paso 5
Tomar una
decisin
Rechazar H
H0
Rechazar
0
yy
Aceptar H
H1
Aceptar
1
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Hiptesis nula
H0 es verdad
H0 es falso
Investigador
No rechaza
Rechaza
H0
H0
Decisin correcta
Error de tipo I
Error de tipo II
Decisin correcta
Donde:
X = media de la muestra
= media de la poblacin
= desviacin estndar de la poblacin
n = tamao de la muestra
z = valor estndar
Cuando no se conoce el valor de la desviacin estndar de la poblacin (), se
puede utilizar el valor de la desviacin estndar de la muestra (s) para
aproximarlo.
El valor z se basa en la distribucin de muestreo de las medias de las muestras,
que, como ya hemos visto, tiene una distribucin normal cuando la muestra es
razonablemente grande, con una media igual a la media de la poblacin () y con
una desviacin estndar igual a /n. As es posible determinar si la diferencia
entre la media de la muestra ( x ) y la media de la poblacin () es importante
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Distribucin de muestreo para la estadstica z, prueba de una cola a la derecha, nivel de sig. 0.05
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Regin de
rechazo
No rechazar
H0
0
Escala de z
1.65
valor crtico
10
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
H1: El ingreso medio de los hombres es mayor que el ingreso medio de las
mujeres.
Por lo tanto, una prueba de dos colas ser aquella en la que la hiptesis
alternativa no establece una direccin, como:
H0: No hay diferencia entre el ingreso medio de las mujeres y el de los hombres.
H1: Existe una diferencia entre el ingreso medio de las mujeres y el de los
hombres.
Si se rechaza la hiptesis nula y se acepta la alternativa, en el caso de las dos
colas, el ingreso medio de los hombres podr ser mayor que el de las mujeres o
viceversa. Debido a que existen dos posibilidades, un rea de rechazo de 5% (por
ejemplo) se divide en partes iguales entre las dos colas de la distribucin (2.5 en
cada una).
La siguiente grfica ilustra las dos reas de rechazo y los valores crticos. Observa
que el rea total de la distribucin es de 1.000, que se encuentra por 0.95 + 0.025
+ 0.025.
Regin de
rechazo
0.025
No rechazar
H0
Regin de
rechazo
0.025
0.95
0
1.65
valor crtico
+1.65
valor crtico
Escala de z
11
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
12
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
13
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
0.5000
0.5000
0.01
2
= 0.005
2
0.4950
-2.58
regin de
rechazo
0.01
2
= 0.005
0.4950
0
H0 no se rechaza
valor crtico
+2.58
regin de
rechazo
valor crtico
Escala de z
14
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
16
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
De acuerdo con el clculo del valor z que se hizo en el paso 3 y con la regla de
decisin formulada en el paso anterior, se llega a la conclusin de que la media de
la poblacin es diferente de 68.
Esto debido a que z = -2.69 no cae en la regin de rechazo y por lo tanto no se
cuenta con elementos para rechazar la hiptesis nula (que dice que la media de
produccin de la poblacin es igual a 68 litros de refresco de cola).
As se puede decir que la evidencia de la muestra indica que el nivel de consumo
anual de refresco de cola
es diferente para la muestra de estudiantes
universitarios y para la poblacin en general.
Otra forma de decirlo es que el consumo medio de refrescos de cola para los
estudiantes universitarios es diferente de 68 litros.
La diferencia de 3.87 litros entre el consumo de la poblacin en general y el de los
estudiantes universitarios no puede atribuirse a la casualidad.
Respuesta inciso b)
Paso 1
H0: 68 litros de refresco de cola al ao
H1: < 68 litros de refresco al ao
Paso 2
= 0.05
Paso 3
17
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
De acuerdo con el clculo del valor z que se hizo en el paso 3 y con la regla de
decisin formulada en el paso anterior, se llega a la conclusin de que el consumo
medio de refresco de cola es menor de 68 litros.
Esto debido a que z = -2.69 cae en la regin de rechazo y por lo tanto se cuenta
con elementos para rechazar la hiptesis nula (que dice que la media de
produccin de la poblacin es mayor o igual a 68 litros de refresco de cola).
As se puede decir que la evidencia de la muestra indica que el nivel de consumo
anual de refresco de cola es menor para la muestra de estudiantes universitarios
que para la poblacin en general.
Otra forma de decirlo es que el consumo medio de refrescos de cola para los
estudiantes universitarios es menor de 68 litros.
La diferencia negativa de 3.87 litros entre el consumo de la poblacin en general y
el de los estudiantes universitarios no puede atribuirse a la casualidad.
Prueba de hiptesis para dos medias de poblacin (muestras grandes)
En esta seccin se ver al procedimiento para probar si dos medias poblacionales
son iguales con base e la informacin que se tiene de dos muestras de stas; o
bien, que la diferencia entre ambas medias muestrales es tan grande que se de
puede concluir que las medias poblacionales no son iguales. Algunas aplicaciones
de este tipo de planteamiento son las siguientes:
18
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Donde:
X1 = media de la primera muestra
X2 = media de la segunda muestra
S1 = desviacin estndar de la primera muestra
S2 = desviacin estndar de la segunda muestra
n1 = tamao de la primera muestra
n2 = tamao de la segunda muestra
z = valor estndar
En el siguiente ejemplo se ilustran los detalles de los clculos e interpretacin de
este tipo de pruebas.
Ejercicio
Se pide a cada uno de los pacientes del Hospital ABC que evalen el servicio
recibido en el momento de su alta. Hace poco, hubo algunas quejas de que los
mdicos y enfermeras residentes del rea de ciruga responden con demasiada
lentitud a los llamados de los pacientes de la tercera edad. De hecho, se afirma
que los dems pacientes reciben un servicio ms rpido. El Dr. Jos Luis Cuevas,
Director General del Hospital, pidi al departamento de aseguramiento de calidad
que investigara a respecto. Luego de hacer un estudio, el departamento report la
siguiente informacin basada en muestras de ambos tipos de pacientes:
Tipo de Paciente
De la tercera edad
Otros
Media de la muestra
Desviacin estndar
de la muestra
Tamao de la muestra
5.50 minutos
5.30 minutos
0.40 minutos
0.30 minutos
50
100
19
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Paso 1
H0: 1 2
H1: 1 > 2
Paso 2
= 0.01
Paso 3
z=
5.5 5.3
.402
50
.302
100
z = 0.2 / 0.064
z = 3.13
Paso 4
Rechazar la hiptesis nula y aceptar la hiptesis alternativa, si el valor calculado
de z excede 2.33. No rechazar la hiptesis nula si z es menor a 2.33.
Paso 5
Debido a que el valor calculado de z (3.13) es mayor que el valor crtico (2.33), se
rechaza la hiptesis nula y se acepta la de investigacin. Es decir, que con base
en la informacin de las muestras se puede concluir que el tiempo que los
doctores y enfermeras del Hospital ABC tardan en atender a los pacientes de la
tercera edad es mayor al que tardan en atender a lo dems pacientes.
20
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
proporcin de
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Donde:
p = proporcin de la muestra
P = proporcin de la poblacin
n = tamao de la muestra
p
= error estndar de la proporcin de la poblacin
Se calcula por p(1-p=/n de modo que la frmula se convierte en:
22
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
z = -0.280
Paso 4
Debido a que la prueba es de una cola y a que = 0.05, el valor crtico es de
1.65, as:
Rechazar la hiptesis nula y aceptar la alternativa si el valor calculado de z cae a
la izquierda de 1.65; de lo contrario, no rechazar la hiptesis nula.
Paso 5
El valor calculado de z (-0.280) no est en la regin de rechazo, de modo que la
hiptesis nula no se rechaza al nivel de significancia de 0.05.
Dicho de otro modo, la evidencia apoya la afirmacin de que la candidata del PRD
ganar las prximas elecciones.
Prueba para la comparacin de dos proporcines poblacionales.
Con frecuencia el inters radica en saber si dos proporciones de poblacin son
iguales. A continuacin se presentan varios ejemplos:
Nota que en los ejemplos anteriores, y en todos los que se desea comparar
proporciones, cada artculo de la muestra puede clasificarse como xito o
23
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Donde:
n1 = tamao de la primera muestra
n2 = tamao de la segunda muestra
z = valor estndar
p1 = proporcin de la primera muestra
p2 = proporcin de la segunda muestra
pc = proporcin conjunta, que se calcula con la siguiente frmula:
Donde:
X1 = nmero de elementos que poseen la caracterstica buscada en la primera
muestra
X2 = nmero de elementos que poseen la caracterstica buscada en la segunda
muestra
24
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Ejercicio
Hace poco, Avn desarroll un nuevo perfume que pretende comercializar bajo el
nombre de Belinda. Varias pruebas comparativas indican que Belinda tiene un
alto potencial de mercado. Para planear su estrategia de mercado, el
departamento de ventas de Avn desea saber si habr diferencias en el xito que
tenga el perfume entre las mujeres jvenes o maduras. Para ello se toman dos
muestras independientes, una de mujeres jvenes y otras de mujeres maduras. Se
usar una prueba en la que se pedir a cada una de las mujeres de la muestra
oler varios perfumes, entre los que se encuentra Belinda, y que indiquen cul es
el que les gusta ms.
Los resultados fueron los siguientes:
Tipo de mujeres
Jvenes
Maduras
Prefirieron
Belinda
Prefirieron otro
TOTAL
Proporcin de las
que prefirieron
Belinda
20
100
80
100
100
200
0.20
0.50
z = -0.30 / 0.06
z = -5.00
25
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Paso 4
No rechazar la hiptesis nula, si el valor calculado de z cae entre 1.96 y +1.96.
Rechazar la hiptesis nula y aceptar la hiptesis de investigacin si z no cae entre
1.96 y +1.96.
Paso 5
Debido a que el valor calculado de z (-5.00) no cae entre los valores crticos (-1.96
y +1.96), se rechaza la hiptesis nula y se acepta la de investigacin. Es decir, que
con base en la informacin de las muestras se puede concluir que la proporcin de
mujeres jvenes que prefieren el perfume Belinda es distinta a la proporcin de
mujeres maduras.
Pruebas de hiptesis con muestras pequeas
En los casos anteriores se ha utilizado el estadstico de prueba de la distribucin
estndar o z. Para emplear este estadstico es necesario conocer la desviacin
estndar () de la poblacin o tener una muestra grande de ms de 30
observaciones.
Sin embargo, en muchos casos no se conoce y el nmero de observaciones de
la muestra es menor a 30. En estos casos, se puede utilizar la desviacin estndar
de la muestra (s) para aproximar (), pero no es posible utilizar la distribucin z
como estadstico de prueba. El estadstico de prueba adecuado es la t de Student,
o tambin conocida como distribucin t.
Cuando se utiliza la t de Student, se supone que la poblacin tiene una
distribucin normal. A continuacin se mencionan algunas caractersticas de esta
distribucin.
-
26
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
27
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Paso 2
= 0.01
Paso 3
Donde:
X = media de la muestra
= media de la poblacin
s = desviacin estndar de la muestra
n = tamao de la muestra
t = (57-60) / (10 * 26)
t = -1.530
Paso 4
Los valores crticos de t se encuentran en las tablas de la Distribucin t de
Student. La columna de la izquierda tiene el encabezado de grados de libertad,
gl. El nmero de grados de libertad es el nmero de observaciones de la muestra
menos el nmero de muestras, escrito n 1. En este caso el nmero de
observaciones en la muestra es 26, por lo que hay 26 1 = 25 grados de libertad.
Para encontrar en valor crtico, primero se localiza la lnea de los grados de
libertad apropiados. Despus de determina si la prueba es de una o dos colas. En
este caso se tiene una prueba de una cola. Por lo tanto se encuentra en la parte
de la tabla titulada una cola. Se localiza la columna con el nivel de significancia
seleccionado, que en este caso es de 0.01. Se sigue la columna titulada una cola
0.01 hasta su interseccin con la fila correspondiente a 25 grados de libertad. El
valor es de 2.485. Como se trata de una prueba de una cola y la regin de rechazo
est en la cola izquierda, el valor crtico es negativo.
La regla de decisin es rechazar la hiptesis nula y aceptar la hiptesis de
investigacin si el valor calculado de t es menor a 2.485
28
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Paso 5
Dado que el valor calculado de t (-1.530) est a la derecha del valor crtico (2.485); es decir, no est en la regin de rechazo, no se tienen elementos para
rechazar la hiptesis nula.
En otras palabras, no existe evidencia de que la diferencia de $30 pesos entre la
media de la poblacin y la media de la muestra sea estadsticamente significativa.
Dicho de otro modo, con base en la informacin de la muestra, no se cuenta con
elementos suficientes para afirmar que el plan de reduccin de costos ha
disminuidos realmente los gastos imputables al procesamiento de un caso de
siniestro.
Prueba para comparar dos medias poblacionales independientes (muestras
pequeas)
En el aparatado anterior se seleccion una sola muestra aleatoria y se compar su
media con el valor supuesto de la media poblacional. En este apartado se extiende
esta idea a dos muestras. La interrogante que se busca responder es si ambas
medias son iguales en trminos estadsticos. Se requiere de tres supuestos para
realizar esta prueba:
-
29
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Donde:
S12 = es la varianza de la primera muestra
S22 = es la varianza de la segunda muestra
El valor de t se calcula con la siguiente frmula
:
Donde:
X1 = media de la primera muestra
X2 = media de la segunda muestra
n1 = tamao de la primera muestra
n2 = tamao de la segunda muestra
Sp2 = estimacin combinada de la varianza de la poblacin
Como ya dijimos, el nmero de grados de libertad es igual al nmero de elementos
muestreados menos el nmero de muestras. Debido a que hay dos muestras,
existen n1 + n2 2 grados de libertad.
Ejercicio
John Dere Mxico Es una empresa que, entre otras cosas, fabrica y ensambla
podadoras industriales que se embarcan a todos los pases de Amrica Latina. Se
han propuesto dos procedimientos para montar el motor sobre la estructura de las
podadoras. La pregunta es: existe alguna diferencia en el tiempo medio de cada
procedimiento para montar los motores sobre las estructuras de las podadoras?
El Ing. Gonzlez dise el primer procedimiento (procedimiento 1) y el Ing. Lpez
desarroll el segundo procedimiento (procedimiento 2).
30
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Procedimiento 2
(minutos)
2
4
9
3
2
3
7
5
8
4
3
Paso 1
H0: 1 = 2
H1: 1 2
Paso 2
= 0.10
Paso 3
La t de Student se calcula en tres pasos:
a) Clculo de las desviaciones estndary de las medias de las muestras
X1
Procedimiento 1
X12
2
4
9
3
2
20
4
16
81
9
4
114
X2
Procedimiento 2
X22
3
7
5
8
4
3
30
9
49
25
64
16
9
172
31
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
s1 = 2.9155
s2 = 2.0976
X1 = 20 / 5 = 4
X2 = 30 / 6 = 5
b) Combinacin de las varianzas de las muestras
sp2 = 6.22222
c) Determinar t
t = 0.622
32
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
Paso 4
Los grados de libertad son iguales al nmero de elementos muestreados menos el
nmero de muestras. En este caso n 1 + n2 2 es igual a (5 + 6) 2 = 9 grados de
libertad.
As los valores crticos de t para gl = 9, para una prueba de dos colas y con nivel
de sognificancia 0.10, son +1.833 y 1.833.
Entonces, la regla de decisin es no rechazar la hiptesis nula si el valor calculado
de t cae entre 1.833 y + 1.833.
Paso 5
La decisin es no rechazar la hiptesis nula, ya que el valor calculado de t (-0.622)
cae entre los valores crticos (1.833 y +1.833).
Dicho de otro modo, la evidencia de las muestras indica que no hay elementos
suficientes para decir que existe una diferencia entre los tiempos de ensamblado
de los motores dependiendo del procedimiento que se use.
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
HIR CASA. Los valores estimados dependen de o estn relacionados con la casa
seleccionada. Esto tambin se conoce como muestra en pares.
Para la prueba de hiptesis el inters recae en la distribucin de las diferencias del
valor calculado. En consecuencia, slo hay una muestra. Para decirlo de manera
ms formal, se est investigando si la media de la distribucin de las diferencias
es cero.
La muestra se construye a partir de las diferencias entre los valores calculados por
BAITA y por HIR CASA para cada propiedad. Si las dos firmas reportan valores
semejantes, algunas veces BAITA estar ms alta y otras veces ser HIR CASA.
Sin embargo, se espera que la media de la distribucin de las diferencias sea
cero. En caso contrario, si una de las firmas constantemente reporta valores ms
altos, la media ser diferente de cero.
Se utiliza el smbolo d para indicar la media de la poblacin de la distribucin de
las diferencias. El estadstico de prueba es t y se calcula a partir de la siguiente
frmula.
34
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
BAITA
HIR CASA
1
2
3
4
5
6
7
8
9
10
135
110
131
142
105
130
131
110
125
149
128
105
119
140
98
123
127
115
122
145
Con un nivel de significancia de 0.05, puede decirse que existe una diferencia
entre la media de los valores calculados de las propiedades?
Paso 1
H0: d = 0
H1: d 0
Paso 2
= 0.05
Paso 3
35
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
BAITA
HIR CASA
Diferencia ( d )
Diferencia al
cuadrado ( d2 )
1
2
3
4
5
6
7
8
9
10
135
110
131
142
105
130
131
110
125
149
128
105
119
140
98
123
127
115
122
145
7
5
12
2
7
7
4
-5
3
4
46
49
25
144
4
49
49
16
25
9
16
386
d = 4.60
b) Calculo de la desviacin estndar de la distribucin de las diferencias entre
las observaciones por pares o relacionadas
sd = 4.402
36
Universidad Panamericana
Estadstica II
Prof. Andrs Sandoval H
c) Determinar t
t = 3.305
Paso 4
Los grados de libertad son iguales al nmero de elementos muestreados menos el
nmero de muestras. En este caso n 1 1 es igual a 10 1 = 9 grados de libertad.
Porque hay 10 propiedades valuadas.
As los valores crticos de t para gl = 9, para una prueba de dos colas y con nivel
de sognificancia 0.05, son +2.262 y 2.262.
Entonces, la regla de decisin es no rechazar la hiptesis nula si el valor calculado
de t cae entre +2.262 y 2.262.
Paso 5
La decisin es rechazar la hiptesis nula, ya que el valor calculado de t (3.305) no
cae entre los valores crticos (+2.262 y 2.262).
Dicho de otro modo, la evidencia de la muestra indica que hay elementos
suficientes para decir que existe una diferencia entre las valoraciones que sobre
las mismas propiedades hacen las compaas BAITA y HIR CASA.
37