You are on page 1of 40

ESTADSTICA APLICADA

PRUEBA DE HIPOTESIS: diferencia de medias y


proporciones.

DISTRIBUCIN CHI-CUADRADO.

Mg. Griselda Gladys Vera Nuez


CONTENIDO

Prueba de hiptesis para la diferencia de medias.

Prueba de hiptesis para la diferencia de proporciones.

Estudio de Casos.

Aplicaciones de la Distribucin Chi-Cuadrado.


PRUEBA DE HIPOTESIS:
I. DIFERENCIA DE DOS MEDIAS POBLACIONALES

1) Planteamiento de la Hiptesis

2) Fijar el nivel de significacin


= 0.01, 0.05, 0.10 (el ms utilizado es 0.05)

3) Determinar la funcin de prueba o estadstica de prueba


4) Establecer las regiones de Rechazo (R.R) y de Aceptacin (R.A.)
5) Decisin: decidir si el valor calculado pertenece o no a la
regin de rechazo R.R.
6) Conclusin: expresar la conclusin en trminos del problema
de investigacin.
ESTADSTICO DE PRUEBA:
1) Con varianzas conocidas

2) Con varianzas desconocidas

Cuando n1 + n2 30

3) Con varianzas desconocidas


Cuando n1 + n2 30

es la varianza mancomunada
Prueba de hiptesis utilizando el p-valor
con el programa SPSS

La Prueba de Hiptesis se puede realizar, utilizando el : (p-valor) ,


obtenido de un programa estadstico, por ejemplo el SPSS.

El p-valor ( p) es el mnimo nivel de significancia de la Prueba para el cual


los datos indican que se tendra que rechazar la hiptesis nula.

DECISIN:

- Si el valor p < entonces rechazamos la hiptesis nula.


(contraste es significativo)

- Si el valor p > entonces aceptamos la hiptesis nula.


EJEMPLO:

Una compaa desea comparar las expectativas salariales anuales


de su personal de ventas femenino y masculino, segn un nuevo
plan de compensaciones venta-ms-comisin. Se pidi a n1 = 40
vendedoras y n2 = 40 vendedores, muestreados al azar; predijeron
sus ingresos anuales bajo el nuevo plan. Las medias y
desviaciones muestrales son:

= $ 31 083 = $ 29 745

= $ 2 312 = $ 2 569

Proporcionan estos datos evidencia que indique una diferencia en


el promedio del ingreso anual esperado tanto entre los vendedores
como las vendedoras? Haga la prueba con = 0,10.
SOLUCIN:

4)

1)
5) Decisin: Como el valor calculado
de z =2,45 cae en la regin de
rechazo, por lo tanto se rechaza la
Ho.
2) = 0,10
6)
Conclusin: Los datos
3)
proporcionan suficiente evidencia
como para indicar una diferencia
en el promedio del ingreso anual
esperado tanto entre los
vendedores usando un 10% (0,10)
de significacin de prueba.
EJERCICIO:

El salario promedio mensual para una muestra de 30 empleados


de una empresa manufacturera es de $280.000, con desviacin
estndar de $14.000. En otra empresa del mismo tipo, una
muestra aleatoria de 40 empleados, tiene un salario promedio de
$270.000, con una desviacin estndar de $10.000. No se
suponen iguales las desviaciones estndar de las poblaciones.

Se requiere probar la hiptesis de que no existe diferencia entre


los salarios promedios mensuales de las dos empresas, utilizando
un nivel de significancia del 5%.
SOLUCIN:

4)

1)

5) Decisin: Como el valor


calculado de z =. cae en la
2) regin de .., por lo tanto se
la Ho.

3) 6) Conclusin:
PRUEBA DE HIPOTESIS:
II. DIFERENCIA DE DOS PROPORCIONES POBLACIONALES
1) Planteamiento de la Hiptesis

2) Fijar el nivel de significacin


= 0.01, 0.05, 0.10 (el ms utilizado es 0.05)

3) Determinar la funcin de prueba o estadstica de prueba


4) Establecer las regiones de Rechazo (R.R) y de Aceptacin (R.A.)
5) Decisin: decidir si el valor calculado pertenece o no a la
regin de rechazo R.R.
6) Conclusin: expresar la conclusin en trminos del problema
de investigacin.
ESTADSTICO DE PRUEBA:
EJEMPLO:

Un socilogo cree que la proporcin de hombres que pertenecen a


un grupo socioeconmico determinado (grupo 1) y que ven
regularmente lucha en TV. supera mucho a un segundo grupo de
hombres (grupo 2) que tambin ven lucha.

Muestras aleatorias simples de los dos grupos arrojaron los


siguientes resultados.

Tamao Nmero de hombres que ven


Grupo Muestra lucha en la tv.
-------------------------------------------------------------------------------------------
1) n1 = 150 a1 = 98
2) n2 = 200 a2 = 80

proporcionan estos datos evidencia suficiente como para apoyar la


tesis del socilogo? use = 0,05
SOLUCIN:

4)

1)
5) Decisin: Como el valor
calculado de z =4,63 cae en la
regin de rechazo, por lo tanto se
2) rechaza la Ho.
= 0,05
6)
3) Conclusin: Los datos
proporcionan suficiente evidencia
como para apoyar la opinin del
socilogo con un 5% de
significacin de prueba.
ACTIVIDADES:
Desarrolle los siguientes ejercicios:

1) Para comparar la vida til media de dos marcas de Pilas doble A, se


seleccion una muestra de 100 pilas de la marca X y 100 pilas de la marca
Y. La muestra de la marca X, tiene una vida til media de 47 horas y una
desviacin estndar de 4 horas, en tanto que la muestra de la marca Y,
tiene una vida til media de 48 horas y una desviacin estndar de 3 horas.
Es significativa la diferencia entre las dos medias muestrales al nivel de
significancia del 0.05.

2) Un constructor est considerando dos lugares alternativos para un centro


comercial regional. Como los ingresos de los hogares de la comunidad son
una consideracin importante en esa seleccin, desea probar la hiptesis
nula de que no existe diferencia entre el ingreso promedio por hogar en las
dos comunidades. Consciente con esta hiptesis, supone que la desviacin
estndar del ingreso por hogar es tambin igual en las dos comunidades.
Para una muestra de 30 hogares de la primera comunidad, encuentra que el
ingreso diario promedio es de $35.500, con desviacin estndar de $1.800.
Para la otra muestra de 40 familias de la segunda comunidad, $34.600 de
salario promedio diario y desviacin estndar de $2.400. Pruebe la hiptesis
nula en el nivel de significancia del 5%.
3) Lisa Monnin es directora de presupuesto en la empresa New Process
Company, desea comparar los gastos diarios de transporte del equipo de
ventas y del personal de cobranza.
Recopil la siguiente informacin muestral ( importe en dlares).

Ventas ($) 131 135 146 165 136 142

Cobranza ($) 130 102 129 143 149 120 139

Al nivel de significancia de 0,10, puede concluirse que los gastos medios


diarios del equipo de ventas son mayores? cul es el valor p?

4) Una muestra de 50 familias de una comunidad muestra que 10 de ellas estn


viendo un programa especial de televisin sobre la economa nacional. En
una segunda comunidad 15 familias de una muestra aleatoria de 50 estn
viendo el programa especial de televisin, a continuacin se prueba la
hiptesis de que la proporcin general de televidentes en las dos
comunidades no difiere, usando el nivel de significancia de 1%.
5) La resistencia adhesiva a la tensin del cemento es una caracterstica
importante del producto. Se desea probar la resistencia de una frmula
modificada, a la que se han agregado emulsiones de polmeros de ltex
durante el mezclado, contra la resistencia de la argamasa hecha con la
frmula no modificada. Se hacen 10 observaciones de la resistencia de
la frmula modificada y otras 10 de la frmula no modificada.
Cemento j Cemento
modificado original
1 16.85 17.50
2 16.40 17.63
3 17.21 18.25
4 16.35 18.00
5 16.52 17.86
6 17.04 17.75
7 16.96 18.22
8 17.15 17.90
9 16.59 17.96
10 16.57 18.15
III. DISTRIBUCIN CHI-CUADRADA 2
Cmo analizar informacin nominal o categrica?
La mayora de la informacin que se trabaja en las ciencias sociales o
administrativas es de carcter no-mtrico nominal. Por lo mismo, muchas
de las tcnicas multivariadas ms populares, como la regresin lineal de
mnimos cuadrados, presentan serias limitaciones analticas.

2 es una prueba estadstica no paramtrica para diferencias entre dos


o ms muestras donde frecuencias esperadas son comparadas en
relacin con frecuencias obtenidas.

2 se utiliza para hacer comparaciones entre frecuencias y no entre


valores medios.

Prueba No Paramtrica: procedimiento estadstico que no adopta


ningn supuesto acerca de cmo se distribuye la caracterstica bajo
estudio en la poblacin, y que slo requiere datos nominales u ordinales.

Estas medidas son importantes porque la mayora de la informacin en la


investigacin social y administrativa es de carcter nominal u
ordinal, y porque no siempre estamos seguros que la caracterstica que
deseamos estudiar se distribuye normalmente en la poblacin.
CARATERSTICAS:

1. La distribucin tiene grados de libertad (f-1)(c-1)


2

2. No tiene valores negativos. El valor mnimo es 0.

3. Todas las curvas son asimtricas.

4. Cuando aumentan los grados de libertad, las curvas son


menos elevadas y ms extendidas a la derecha.

5. Se utiliza para evaluar asociacin entre variables cualitativas


medidas en escala nominal u ordinal.
REPRESENTACIN GRFICA Y ESTADSTICO DE PRUEBA:


2
f

O ij E ij
c
2
2
( f 1)( c 1)
i 1 j 1 E ij

f = nmero de categoras de la variable en las filas Oij = nmero observado en entrada ij


c = nmero de categoras de la variable en las columnas Eij = nmero esperado en la entrada ij
APLICACIONES:

a) Prueba de Bondad de Ajuste:


Consiste en determinar si los datos de cierta muestra corresponden
a cierta distribucin poblacional. En este caso es necesario que
los valores de la variable en la muestra y sobre la cual queremos
realizar la inferencia est dividida en clases de ocurrencia, o
equivalentemente, sea cual sea la variable de estudio, deberemos
categorizar los datos asignado sus valores a diferentes clases o
grupos.

b) Prueba de Homogeneidad de varias muestras cualitativas:


Consiste en comprobar si varias muestras de una carcter
cualitativo proceden de la misma poblacin (por ejemplo: estas
tres muestras de alumnos provienen de poblaciones con igual
distribucin de aprobados?. Es necesario que las dos variables
medibles estn representadas mediante categoras con las cuales
construiremos una tabla de contingencia.
c) Prueba de Homogeneidad de varias muestras cualitativas:
Consistente en comprobar si dos caractersticas cualitativas
estn relacionadas entre s (por ejemplo: el color de ojos est
relacionado con el color de los cabellos?). Aunque
conceptualmente difiere del anterior, operativamente
proporciona los mismos resultados. Este tipo de contrastes se
aplica cuando deseamos comparar una variable en dos
situaciones o poblaciones diferentes, esto es: deseamos
estudiar si existen diferencias en las dos poblaciones respecto a
la variable de estudio.
APLICACIONES:
PRUEBA DE BONDAD DE AJUSTE
Supongamos que tenemos un nmero f de clases en las cuales se han ido
registrado un total de n observaciones (n ser pues el tamao muestral).
Denotaremos las frecuencias observadas en cada clase por
O1, O2, ..., Of (Oi es el nmero de valores en la clase Ai ).
Se cumplir: O1 + O2 + ... + Of = n
Lo que queremos es comparar las frecuencias observadas con las
frecuencias esperadas (tericas), a las que denotaremos por
E1, E2, ..., Ef .
Se cumplir: E1 + E2 + ... + Ef = n

Clase Frecuencia Observada Frecuencia Esperada


Clase 1 O1 E1
Clase 2 O2 E2
. . .
Clase f Of Ef
TOTAL n N
Se tratar ahora de decidir si las frecuencias observadas estn o no en
concordancia con las frecuencias esperadas (es decir, si el nmero de
resultados observados en cada clase corresponde aproximadamente al
nmero esperado).

Para comprobarlo, haremos uso de un contraste de hiptesis usando la


distribucin Chi-cuadrado
(Oi Ei ) 2

f


2

i 1 Ei

Cuanto menor sean el valor del estadstico 2 , ms coherentes sern las


observaciones obtenidas con los valores esperados. Por el contrario,
valores grandes de este estadstico indicarn falta de concordancia entre las
observaciones y lo esperado.

En este tipo de contraste se suele rechazar la hiptesis nula


(los valores observados son coherentes con los esperados) cuando el
estadstico es mayor que un determinado valor crtico.
UN EXPERIMENTO MULTINOMIAL ES LA GENERALIZACIN DE
UN EXPERIMENTO BINOMIAL:
1. Consiste en n pruebas idnticas e independientes.
2. Para cada prueba, hay un nmero f de resultados posibles.
3. Cada uno de los f posibles resultados tiene una probabilidad de
ocurrencia pi asociada (p1 + p2 + ... + pf = 1), la cual permanece
constante durante el desarrollo del experimento.
4. El experimento dar lugar a un conjunto de frecuencias observadas (O1,
O2, ..., Of) para cada resultado.

Obviamente, O1 + O2 + ... + Of = n.

En ocasiones estaremos interesados en comparar los resultados obtenidos al


realizar un experimento multinomial con los resultados esperados (tericos).
Ello nos permitir saber si nuestro modelo terico se ajusta bien o no a las
observaciones. Para ello, recurriremos a la distribucin Chi-cuadrado, la cual
nos permitir realizar un contraste sobre la bondad del ajuste.
Se calcula cada frecuencia esperada (terica) multiplicando el nmero total
de pruebas n por la probabilidad de ocurrencia asociada, es decir:
Ei = n * pi i = 1, ..., f
EJEMPLO:

En cierta mquina Expendedora de Refrescos existen 4 canales que


expiden el mismo tipo de bebida. Estamos interesados en averiguar si la
eleccin de cualquiera de estos canales se hace de forma aleatoria o
por el contrario existe algn tipo de preferencia en la seleccin de
alguno de ellos por los consumidores.

La siguiente tabla muestra el nmero de bebidas vendidas en cada uno


de los 4 canales durante una semana. Contrastar la hiptesis de que los
canales son seleccionados al azar a un nivel de significacin del 5%.
SOLUCIN:
Calcular las frecuencias esperadas de cada suceso bajo la hiptesis de
uniformidad entre los valores.
Si la seleccin del canal fuera aleatoria, todos los canales tendran la
misma probabilidad de seleccin y por lo tanto la frecuencia esperada de
bebidas vendidas en cada uno de ellos debera ser aproximadamente la
misma.
Como se han vendido en total 70 refrescos, la frecuencia esperada en
cada canal es
Ei = n * pi = 70* = 17.5 i = 1, ..., f
El estadstico del contraste ser:

Este valor debemos compararlo con el valor crtico de la distribucin 2


con (4-1) = 3 g.l.. Este valor es: 2 0.95 (3) = 7.81

Puesto que el valor del estadstico (2.34) es < que el valor crtico, no
podemos rechazar la hiptesis de que los datos se ajustan a una
distribucin uniforme; es decir, que los canales son seleccionados
aleatoriamente entre los consumidores.
PRUEBA DE HOMOGENEIDAD
Estamos interesados en determinar si los datos correspondientes a dos o
ms muestras aleatorias provienen de la misma poblacin.
Nuevamente el conjunto de posibles valores de las observaciones se divide
en k conjuntos disjuntos: A1, A2, ..., Ak.; clasificando en ellos las
observaciones de cada muestra.
Si nij representa el nmero de observaciones de la muestra i que
pertenecen al conjunto Aj , los datos pueden tabularse en lo que se
denomina una tabla de contingencia.

La hiptesis de que las m poblaciones son homogneas, se traduce en que


cada conjunto Aj debe tener una probabilidad terica pj , desconocida, pero que
no varia de la poblacin i a la poblacin i. Esto debe verificarse para todas las
categoras. Las categoras deben ser homogneas en las diversas muestras.
Estadstico de Contraste:

con (n-1)(k 1) grados de libertad.

Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad,


que puede representarse como ni pj , es decir, el nmero de individuos en la
muestra i por la probabilidad de que ocurra la caracterstica j en la
poblacin.

Para el clculo de las probabilidades de pertenecer un individuo a cada una


de las categoras podemos utilizar:

Cuanto menor sean el valor del estadstico 2* , ms coherentes sern las


observaciones obtenidas con los valores esperados. Por el contrario,
valores grandes de este estadstico indicarn falta de concordancia entre las
observaciones y lo esperado.
En este tipo de contraste se suele rechazar la hiptesis nula (los valores
observados son coherentes con los esperados) cuando el estadstico
es mayor que un determinado valor crtico.
EJEMPLO:

Estamos interesados en estudiar la fiabilidad de cierto componente


informtico con relacin al distribuidor que nos lo suministra. Para realizar
esto, tomamos una muestra de 100 componentes de cada uno de los 3
distribuidores que nos sirven el producto comprobando el nmero de
defectuosos en cada lote.

La siguiente tabla muestra el nmero de defectuosos en para cada uno de


los distribuidores.
SOLUCIN:
Se realiza un contraste de homogeneidad para concluir si entre los
distribuidores existen diferencias de fiabilidad referente al mismo
componente.

Las frecuencias esperadas bajo homogeneidad son las representadas


entre parntesis.

Este valor del estadstico Chi-cuadrado es mayor que el valor para el


nivel de significacin del 5%, por lo tanto debemos concluir que no existe
homogeneidad y por lo tanto que hay diferencias entre los tres
distribuidores. X20.05 (2) = 5.99
APLICACIONES:
PRUEBA DE INDEPENDENCIA DE VARIABLES

Prueba de Independencia, consistente en comprobar si dos


VARIABLES CUALITATIVAS estn relacionadas entre s (por ejemplo:
el estado civil est relacionado con el desempeo acadmico?).

Estamos interesados en determinar si dos cualidades o variables


referidas a individuos de una poblacin estn relacionadas. En este
caso estamos interesados en ver la relacin existente entre dos
variables de una misma poblacin.

Esta prueba se usa cuando el inters es determinar si dos variables


cualitativas estn asociadas.

- Si no existe asociacin entre las dos variables se dice que son


independientes.

- Dos variables son independientes cuando la distribucin de una de


ellas no depende de la distribucin de la otra.
Supuestos:

Se utiliza la prueba de independencia cuando el estudio cumple con los


siguientes supuestos:

1. Los sujetos estn categorizados con respecto a dos variables que


pueden tener dos o ms niveles.
2. Cada sujeto aparece una sola vez y en un solo nivel de cada
variable.
3. Cada asignacin a un nivel es independiente de cualquier otra
asignacin.
4. La frecuencia esperada (Eij) en cada celda es igual o mayor de 5.
TABLA DE CONTINGENCIA:

Oij: denota a las frecuencias observadas. Es el nmero de casos observados


clasificados en la fila i de la columna j
Eij: denota a las frecuencias esperadas. Es el nmero de casos esperados
correspondientes a la fila i de la columna j
n: Nmero total de datos.
La prueba de significacin
2
se refiere esencialmente a la
distincin entre frecuencias esperadas y frecuencias obtenidas.

Para encontrar la frecuencia esperada para cada celda (Eij), se


multiplican los dos totales marginales referida a la fila i y la columna j y
se divide este producto por el nmero total de casos, n . Esto es,
PASOS PARA UNA PRUEBA DE INDEPENDENCIA DE DOS
VARIABLES
1) Planteamiento de la hiptesis
Ho: Las variables X e Y son independientes.
H1: Las variables X e Y no son independientes. (X e Y estn relacionados)
2) Fijar el nivel de significacin 0.01, 0.05, 0.10
3) Determinar el estadstico de prueba
Se utiliza

2
f c


Oij Eij
2

(2f 1)( c1)


i 1 j 1 E ij

Donde 2 tiene una distribucin chi-cuadrado con (k-1) (l-1) g.l.

4) Establecer las regiones de Rechazo (R.R) y de Aceptacin (R.A.)

5) Decisin: Decidir si el valor calculado de la estadstica de prueba pertenece o


no a la regin de rechazo
6) Conclusin
EJEMPLO:

Supngase que se dispone de dos variables, la primera el sexo


(masculino o femenino) y la segunda que recoge si consume o no
alimentos ecolgicos. Se ha observado esta pareja de variables en una
muestra aleatoria de 233 individuos.

Se puede emplear una tabla de contingencia para expresar la relacin


entre estas dos variables, del siguiente modo:

2
f

O ij E ij (65 57)
c

2
2

(58 66) 2 (43 51) 2 (67 59) 2
4.42
i 1 j 1 E ij
57 66 51 59
Pasos de una Prueba de hiptesis:
1) Planteamiento de la Hiptesis
Ho: Las variables X e Y son independientes.
H1: Las variables X e Y no son independientes. (X e Y estn relacionados)
2) Fijar el nivel de significacin 0,05
3) Determinar el estadstica de prueba .
Se utiliza

2
f

Oij E ij
c
2

(2f 1)( c1)


2
3.841 i 1 j 1 E ij
( 0.05 )(1)

4) Establecer las regiones de Rechazo (R.R) y de Aceptacin (R.A.)

5) Decisin: Como el valor calculado pertenece a la regin de rechazo entonces


rechazamos Ho
6) Conclusin: Las variables X e Y no son independientes, quiere decir que los
alimentos ecolgicos influyen en el sexo.
GRACIAS

You might also like