You are on page 1of 10

UNIDAD 5 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS DATOS

CATEGORICOS Y VARIAS MUESTRAS CON DATOS CATEGORICOS.


Prueba De Hiptesis Para Proporciones El concepto de prueba de hiptesis
se puede utilizar para probar hiptesis en relacin con datos cualitativos.
Por ejemplo, en el problema anterior el gerente de la fbrica de llantas
quera determinar la proporcin de llantas que se reventaban antes de
10,000 millas. Este
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CO
N DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMRICOS
es un ejemplo de una variable cualitativa, dado que se desea llegar a
conclusiones en cuanto a la proporcin de los valores que tienen una
caracterstica particular. El gerente de la fbrica de llantas quiere que la
calidad de llantas producidas, sea lo bastante alta para que muy pocas se
revienten antes de las 10,000 millas. Si ms de un8% de las llantas se
revientan antes de las 10,000 millas, se llegara a concluir que el proceso no
funciona correctamente. La hiptesis nula y alternativa se pueden
expresar como sigue: o: p .08 (funciona correctamente)H1: p > .08 (no
funciona correctamente)La prueba estadstica se puede expresar en
trminos de la proporcin de xitos como sigue: En donde = proporcin de
xitos de la hiptesis nula Ahora se determinar si el proceso funciona
correctamente para las llantas producidas para el turno de da. Los
resultados del turno de da indican que cinco llantas en una muestra de 100
se reventaron antes de 10,000 millas para este problema, si se seleccionan
nivel de significancia de .05, las regiones de rechazo y no rechazo se
estableceran como a continuacin se muestra: Y la regla de decisin sera:
Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.Con los datos que
se tienen,= .05Y entonces,= 1.107Z 1.107 < + 1.645; por tanto no
rechazar o la hiptesis nula no se rechazara por que la prueba estadstica
no ha cado en la regin de rechazo. Se llegara a la conclusin de que no
hay pruebas de que ms del 8% de las llantas producidas en el turno de da
se revienten antes de 10,000 millas. El gerente no ha encontrado ninguna
prueba de que ocurra un nmero excesivo de reventones en las llantas
producidas en el turno de da.
Prueba de hiptesis a partir de proporciones.
Las pruebas de hiptesis a partir de proporciones se realizan casi en la
misma
formautilizada cuando nos referimos a las medias, cuando se cumplen las su
posicionesnecesarias para cada caso. Pueden utilizarse pruebas unilaterales
o bilateralesdependiendo de la situacin particular. La proporcin de una
poblacin Las hiptesis se enuncian de manera similar al caso de la
media.Ho: p = p0H1: p p0En caso de que la muestra sea grande n>30, el
estadgrafo de prueba es: Se distribuye normal estndar. Regla de decisin:
se determina de acuerdo a la hiptesis alternativa (si es bilateral o
unilateral), lo cual puedes fcilmente hacerlo auxilindote de la tabla

4.4.1.En el caso de muestras pequeas se utiliza la distribucin Binomial. No


lo abordaremos por ser complicado y poco frecuente su uso. Diferencia
entre las proporciones de despoblaciones. La situacin ms frecuente es
suponer que existen diferencias entre las proporciones dedos poblaciones,
para ello suelen enunciarse las hiptesis de forma similar al caso de las
medias: Ho: p1 = p2 p1 - p2 = 0H1: p1 p2Puede la hiptesis alternativa
enunciarse unilateralmente. El estadgrafo de prueba para el caso de
muestras independientes: Siendo a1 y a2, el nmero de sujetos con la
caracterstica objeto de estudio en las muestras 1 y 2 respectivamente, es
decir, en vez de calcular la varianza para cada muestra, se calcula una p
conjunta para ambas muestras bajo el supuesto que no hay diferencias
entre ambas proporciones y as se obtiene la varianza conjunta. Recuerda
que = 1-p.Est de ms que te diga que este estadgrafo se distribuye
normal estndar. La regla de decisin se determina de manera similar a los
casos ya vistos anteriormente. El objetivo de la prueba es comparar estas
dos proporciones, como estimadores H1: p1 p2Recuerda que la H1
tambin puede plantearse de forma unilateral.
5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
En algunos diseos de investigacin, el plan muestral requiere
seleccionar dos muestras independientes, calcular
las proporciones muestrales y usar la diferencia de las dos proporciones
para estimar o probar una diferencia entre las mismas. Las aplicaciones son
similares a la diferencia de medias, por ejemplo si dos empresas consultoras
ofrecen datos de proporciones de personas que van a votar por el PRI y al
hacer dos estudios diferentes salen resultados ligeramente diferentes pero
qu tanta diferencia se requiere para que sea estadsticamente
significativo? De eso se pruebas estadsticas de diferencias de proporciones.
El estadstico Z para estos casos se calcula de la siguiente manera:
Ejemplo:
Una muestra de 87 mujeres trabajadoras profesionales mostr que la
cantidad promedio que pagan a un fondo de pensin privado el 5% de su
sueldo. Una muestra de76 hombres trabajadores profesionales muestra que
la cantidad que paga un fondo de pensin privado es 6.1% de su sueldo. Un
grupo activista de mujeres desea demostrar que las mujeres no pagan tanto
como los hombres en fondos de pensin privados. Si se usa alfa = 0.01 Se
confirma lo que el grupo activista de mujeres desea demostrar o no? Paso
1. Determinar la hiptesis Nula Ho y Alternativa HaNtese que este
problema es de una cola.
Ho: Lo que pagan las mujeres en el fondo de pensin es igual o mayor a lo
que pagan los hombres (algunos autores solo le colocan igual).Ha:
_______________________________________ (El estudiante debe describir la Ha)
La hiptesis alternativa es lo que las mujeres del grupo activista desean
demostrar. Paso 2.Determinar el nivel de significancia. Definida por el
analista, en este casi se desea usar = 0.01Grficamente el nivel de

significancia se distribuye en la curva


de distribucin normal como se
muestra en la figura:
Paso 3.Calcular los intervalos que
implican ese nivel de significancia Para
dicho nivel de significancia el valor de
Z es: Z=-2.326Grficamente queda de
la siguiente manera:

PASO 4:

5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.


Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma
utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situacin particular.
La proporcin de una poblacin
Las hiptesis se enuncian de manera similar al caso de la media.
Ho: p = p0
H1: p p0
En caso de que la muestra sea grande n>30, el estadgrafo de prueba es:
distribuye normal estndar.

se

Regla de decisin: se determina de acuerdo a la hiptesis alternativa (si es bilateral o


unilateral. En el caso de muestras pequeas se utiliza la distribucin Binomial. No lo
abordaremos por ser complicado y poco frecuente su uso.
Diferencia entre las proporciones de dos poblaciones
La situacin ms frecuente es suponer que existen diferencias entre las proporciones
de dos poblaciones, para ello suelen enunciarse las hiptesis de forma similar al caso
de las medias:
Ho: p1 = p2 p1 - p2 = 0
H1: p1 p2
Puede la hiptesis alternativa enunciarse unilateralmente.
El estadgrafo de prueba para el caso de muestras independientes:

donde

Siendo a1 y a2, el nmero de sujetos con la caracterstica objeto de estudio en las


muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada
muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay

diferencias entre ambas proporciones y as se obtiene la varianza conjunta. Recuerda


que q = 1-p.
Est de ms que te diga que este estadgrafo se distribuye normal estndar.
La regla de decisin se determina de manera similar a los casos ya vistos
anteriormente.
El objetivo de la prueba es comparar estas dos proporciones, como estimadores
H1: p1 p2
Recuerda que la H1 tambin puede plantearse de forma unilateral. En algunos diseos
de investigacin, el plan muestral requiere seleccionar dos muestras independientes,
calcular las proporciones mustrales y usar la diferencia de las dos proporciones para
estimar aprobar una diferencia entre las mismas .Las aplicaciones son similares a la
diferencia de medias, por ejemplo si dos empresas consultoras ofrecen datos de
proporciones de personas que van a votar por el PRI y al hacer dos estudios diferentes
salen resultados ligeramente diferentes pero qu tanta diferencia se requiere para
que sea estadsticamente significativo? De eso se tratan las Pruebas estadsticas de
diferencias de proporciones.

5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z.


Una distribucin poblacional representa la distribucin de valores de una poblacin y
una distribucin muestral representa la distribucin de los valores de una muestra. En
contraste con las distribuciones de mediciones individuales, una distribucin muestral
es una distribucin de probabilidad que se aplica a los valores posibles de una
estadstica muestral. As, la distribucin muestral de la media es la distribucin de
probabilidad de los valores posibles de la media muestral con base en un determinado
tamao de muestra.
Para cualquier tamao de muestra dado n, tomado de una poblacin con media , los
valores de la media muestra varan de una muestra a otra. Esta variabilidad sirve de
base para la distribucin muestral. La distribucin muestral de la media se describe
determinando el valor esperado E () o media, de la distribucin y la desviacin
estndar de la distribucin de las medias, . Como esta desviacin estndar indica la
precisin de la media muestral como estimador puntual, por lo general se le denomina
error estndar de la media.
5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA).
Cuando comparamos dos situaciones podemos esperar que sean ya bien
dependientes o independientes esto quiere decir que pueden o no estar relacionados
sus datos debido a muchos factores que pueden influir en ellos o bien, un problema no
tenga relacin con otro.
La prueba de independencia trata sobre esto, ya que su objetivo es determinar si
alguna situacin es afectada por otra, basndose en datos estadsticos y valores
probabilstico obtenidos de la fabulacin de datos o de pronsticos por medio de

frmulas y tablas, para esto se basa en un nivel de significancia en un caso y en el


otro a comparar, valindonos de tablas de contingencia para obtener frecuencias
esperadas y poder aplicarlas, para as obtener datos comparativos que son
determinantes en la decisin de independencia.
La estadstica de prueba que ser utilizada en la toma de una decisin acerca de la
hiptesis nula es ji cuadrado, X2 (X es la letra griega ji minscula. Los valores de ji
cuadrado se obtienen con las siguientes formula:

X2

=
i

(Oi

ei)2

ei

Grados de libertad
V = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del rengln
Gran total
Caractersticas
X2 toma valores no negativos; es decir, puede ser cero o positiva.
X2 no es simtrica; es asimtrica hacia la derecha.
Existen muchas distribuciones X2 como en el caso de la distribucin t, hay una
distribucin, X2 diferente para cada valor de los grados de libertad.
Nos dan una tabla de contingencia.
Una tabla de contingencia es una disposicin de datos en una clasificacin de doble
entrada. Los datos se ordenan en celdas y se reporta l nmero de datos en cada una.
En la tabla de contingencia estn implicados dos factores (o variables), y la pregunta
comn en relacin con tales tablas es si los datos indican que las dos variables son
independientes o dependientes.
Para ilustrar la utilizacin y anlisis de una tabla de contingencia, considrese la
clasificacin por sexo de los estudiantes de una escuela y su rea acadmica favorita.
5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA).
La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de
frecuencias entre dos variables aleatorias, X e Y.
Las hiptesis contrastadas en la prueba son:
Hiptesis nula: X e Y son independientes.
Hiptesis alternativa: X e Y no son independientes (No importa cul sea la relacin que
mantengan ni el grado de esta.

La condicin de independencia, tal como fue definida en la pgina anterior era: X e Y


son independientes si y slo si para cualquier pareja de valores x e y la probabilidad
de que X tome el valor x e Y el valor y, simultneamente, es igual al producto de las
probabilidades de que cada una tome el valor correspondiente.

Por tanto, todo lo que necesitamos sern unas estimas de las funciones de
probabilidad de ambas variables por separado (f(x) y f(y)) y de la funcin de
probabilidad conjunta (f(x,y))
Empezaremos la prueba tomando una muestra de parejas de valores sobre la que
contaremos la frecuencia absoluta con la que aparece cada combinacin de valores
(xi,yj) o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos
datos, es en realidad nuestra estimacin de la funcin de probabilidad conjunta
multiplicada por el nmero total de datos (T).

Para obtener las estimas de las funciones de probabilidad marginales debemos sumar
por filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas
(Fi) son, en cada caso, el nmero de veces que hemos obtenido un valor de X (x i) en
cualquier combinacin con distintos valores de Y, es decir, son nuestra estima de la
funcin de probabilidad de X multiplicada por el nmero total de observaciones;
anlogamente, las sumas de columnas (Cj) son nuestra estima de la funcin de
probabilidad de Y multiplicada por el nmero total de observaciones.
El nmero total de observaciones lo podemos obtener como la suma de todas las
frecuencias observadas o, tambin, como la suma de las sumas de filas o de las
sumas de columnas:

As pues, si las variables fueran independientes debera cumplirse que

Naturalmente, nadie espera que esta condicin se cumpla exactamente debido al


efecto de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en
distinguir entre las diferencias producidas por efecto del muestreo y diferencias que
revelen falta de independencia.
Podemos convertir la ecuacin anterior a frecuencias absolutas multiplicando por T:

Si X e Y son independientes, Oij debe ser igual a

Bajo la hiptesis de independencia,

y, por tanto,

es el valor esperado de Oij (Eij)

Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si
las frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se
puede calcular un parmetro que depende de ambas que tiene distribucin chicuadrado,

Por otra parte, si las variables no son independientes, las diferencias entre las series
de frecuencias observadas y esperadas sern mayores que las atribuibles al efecto del
azar y, al estar elevadas al cuadrado en el numerador de la expresin anterior, sta
tender a ser mayor que lo que suele ser el valor de una variable chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de la prueba de hiptesis y la regin


crtica se encontrar siempre en la cola derecha de la distribucin chi-cuadrado.
Nuevamente, esta prueba ser siempre de una sola cola.

Estadstico de contraste
Se acepta la hiptesis nula si
cuadrado con grados de libertad.

, el percentil 1 de la distribucin chi-

Tal como ocurra en la prueba anterior lo corriente es que queramos demostrar que
dos variables son independientes, es decir, que, habitualmente, nos veremos
obligados a colocar nuestra hiptesis en la hiptesis nula. El nmero de grados de
libertad de la chi-cuadrado que sirve de contraste se calcula de la siguiente forma:

A priori tendremos tantos grados de libertad como combinaciones de valores x i, yj


tengamos (I J)
A este nmero tendremos que restarle I debido a que, para calcular las frecuencias
esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas
las sumas de filas obtenemos el nmero total de observaciones sin perder ningn
grado de libertad.
A continuacin, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de
las sumas de columnas; la restante podemos obtenerla restando la suma de las
anteriores del total de observaciones (T).
En resumen, el nmero de grados de libertad de la prueba es el producto del nmero
de filas menos uno por el nmero de columnas menos uno.

En cuanto a la magnitud mnima necesaria de las frecuencias observadas y


esperadas, rigen las mismas normas que en el caso de la prueba de ajuste. En este
caso, si nos viramos obligados a juntar valores para sumar frecuencias, debemos unir
columnas o filas completas (y contiguas). Obviamente, los grados de libertad no deben
calcularse hasta que no se hayan realizado todas las agrupaciones necesarias y
quede claro cul es el nmero de filas y columnas de la tabla definitiva.
Como hemos visto, esta prueba no hace ninguna suposicin acerca del tipo de
distribucin de ninguna de las variables implicadas y utiliza nicamente informacin de
la muestra, es decir, informacin contingente. Esta es la razn por la que,
habitualmente, se le llama chi-cuadrado de contingencia.
5.6 PRUEBAS DE BONDAD DE AJUSTE.
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan
a una determinada distribucin, esta distribucin puede estar completamente
especificada (hiptesis simple) o perteneciente a una clase paramtrica (hiptesis
compuesta).
Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la
distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la
distribucin poda tener uno o ms parmetros desconocidos, que denotamos por q y
que la hiptesis se relaciona con este parmetro o conjunto de parmetros En otros
casos, se desconoce por completo la forma de la distribucin y la hiptesis entonces
se relaciona con una distribucin especfica f(x,q) que podamos asignarle al conjunto
de datos de la muestra. El primer problema, relacionado con los parmetros de una
distribucin conocida o supuesta es el problema que hemos analizado en los prrafos
anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se
puede ajustar o afirmar que proviene de una determinada distribucin. Las pruebas
estadsticas que tratan este problema reciben el nombre general de Pruebas de
Bondad de Ajuste.
Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y
la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en
estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo
indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la

muestra y la distribucin terica que se supone debe seguir esa muestra. Ambas
pruebas estn basadas en la hiptesis nula de que no hay diferencias significativas
entre la distribucin muestral y la terica. Ambas pruebas estn basadas en las
siguientes hiptesis:
H0: f(x,q) = f0(x,q)
H1: f(x,q) f0(x,q)
Donde f0(x, q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis
alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta.
Si se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra
prueba suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la
hiptesis nula, el conjunto de parmetros definidos por q puede ser conocido o
desconocido. En caso de que los parmetros sean desconocidos, es necesario
estimarlos mediante alguno de los mtodos de estimacin analizados con anterioridad.
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o
criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la
distribucin que siguen los tiempos de falla de unos componentes, podramos pensar
en una distribucin exponencial, o una distribucin gama o una distribucin Weibull,
pero en principio no consideraramos una distribucin normal. Si estamos analizando
los caudales de un ro en un determinado sitio, podramos pensar en una distribucin
logartmica normal, pero no en una distribucin normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor
indicacin del tipo de distribucin a considerar.
5.7 APLICACIONES.
Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o
independientes.
La distribucin ji cuadrada sirve para todas las inferencias sobre la variancia de una
poblacin.
Existen muchos problemas para los cuales los datos son categorizados y los
resultados expuestos en forma de conteos o cuentas.
Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser
representado como una distribucin de frecuencias. Estos valores son cuentas: l
numera de datos que caen en cada celda.
En una encuesta determinada se podra preguntar a unas personas si votaran por los
candidatos A, B o C, por lo general, los resultados se indican en una grfica que
informa acerca del nmero de votantes para cada categora posible.

You might also like