You are on page 1of 35

2

nellypillhuaman@gmail.com
Estn relacionados los hbitos de lectura con el sexo
del lector?

Estn relacionadas las calificaciones obtenidas con
el nmero de faltas?

Es independiente la opinin sobre la poltica
exterior de la poltica partidista?

Es independiente el sexo de una persona de su
preferencia en colores?

Est relacionado el sexo con tener una educacin
universitaria?
Son independientes el tamao de una familia
y el nivel de educacin de los padres?

Est relacionado el desempleo con el
incremento de la criminalidad?

El precio est asociado con la calidad de un
producto electrodomstico?

El estado nutricional esta asociado con el
desempeo acadmico?

Estn relacionadas las enfermedades del
corazn con el tabaquismo?
Objetivo
El objetivo general de este tpico es que se
comprenda las dos tcnicas estadsticas
empleadas para analizar datos categricos,
con lo cual podr:
Analizar datos usando la prueba de Ji
cuadrado de independencia
Comprender la prueba ji cuadrado de
bondad de ajuste y cmo usarla
Usar la prueba Ji cuadrado para
homogeneidad
PRUEBA DE BONDAD
DE AJUSTE
PRUEBA DE
INDEPENDENCIA
PRUEBA DE
HOMOGENEIDAD
DOS VARIABLES
UNA VARIABLE
PRUEBA CHI CUADRADO
Prueba de Independencia,
Se usa para analizar la frecuencia de dos
variables con categoras mltiples para
determinar si las dos variables son
independientes o no.

Por ejemplo:
El tipo de refresco preferido por un
consumidor es independiente de su grupo
etreo?

El estado nutricional esta asociado con el
desempeo acadmico?

determinar si la regin geogrfica es
independiente del tipo de inversin
financiera?

La prueba Chi cuadrado de independencia
es particularmente til para analizar datos
de variables cualitativas nominales.
Los datos de variables cualitativa o categricas representan
atributos o categoras y se organizan en tablas llamadas
tablas de contingencia o tablas de clasificacin cruzada.
Tabla de contingencia
Una Tabla de contingencia con r filas y c columnas tiene la
siguiente forma:
Donde:

Oi j : es el nmero de sujetos que tienen las caractersticas
Ai y Bj a la vez.

Ri : (i = 1,,r) es la suma de la i-sima fila de la tabla.
Es decir, es el total de sujetos que poseen la
caracterstica Ai.

Cj :(j = 1,,c) es la suma de la j-sima columna de la
tabla. Es decir, es el total de sujetos que poseen la
caracterstica Bj.

n : representa el total de observaciones tomadas.
Formulacin de hiptesis:

Hiptesis nula (H
0
) : Las variables X e Y son
independientes, ( X e Y no estn relacionadas)

Hiptesis alternativa (H
1
) : Las variables X e Y no son
independientes, (X e Y estn relacionadas)
La pregunta es:

Existir o no relacin entre las variables A y
B?, es decir, si A y B son o no independientes.
Pruebas de Independencia

La estadistica Ji-Cuadrado esta dado por:




donde
Oij : es la frecuencia observada de la celda que est en la
fila i, columna j,

es la frecuencia esperada de la

celda (i, j).


r
1 i
c
1 j
ij
2
ij ij 2
E
) E O (
n
C R
E
j i
ij
*

La frecuencia esperada es aquella que debe


ocurrir para que la hiptesis nula sea
aceptada.

La prueba estadstica se distribuye como una
Ji-Cuadrado con (r-1)*(c-1) grados de libertad.

La hiptesis Nula se rechaza si ,

o equivalentemente si el p-value es menor
que (prefijado)
2
1
2

calc

Ejemplo:

Se toma una muestra aleatoria de 2200 familias y se les clasifica
en una tabla de doble entrada segn su nivel de ingresos (alto,
medio o bajo) y el tipo de colegio a la que envan sus hijos. La
siguiente tabla muestra los resultados obtenidos:
A un nivel de significancia del 1% hay razn para creer que
el ingreso y el tipo de colegio no son variables
independientes?
TOTAL
INGRESOS PRIVADO PBLICO
Alto 506 494 1000
Medio 438 162 600
Bajo 215 385 600
TOTAL 1159 1041 2200
TIPO DE COLEGIO
Primero: ingresar los datos: ya tabulados de la siguiente
manera
Segundo: ponderar las frecuencias, de la siguiente forma:
Tercero: realizar el proceso de pedido de la prueba Chi cuadrado
Solucin:
Las hiptesis a plantearse son las siguientes:

Ho: No hay relacin entre el ingreso y el tipo de colegio

H1: Si hay relacin entre el ingreso y el tipo de colegio.
Interpretacin: Como el P-value es
menor que 0.01 se puede concluir que
hay relacin entre el nivel de ingreso y el
tipo de colegio.
Tabl a de conti nge nci a Ti po_Col * Cl as e_s oc
506 438 215 1159
526.8 316.1 316.1 1159.0
494 162 385 1041
473.2 283.9 283.9 1041.0
1000 600 600 2200
1000.0 600.0 600.0 2200.0
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
1.00
2.00
Tipo_Col
Tot al
1.00 2.00 3.00
Clase_soc
Tot al
Prue bas de chi -cuadrado
169.429
a
2 .000
174.511 2 .000
16.917 1 .000
2200
Chi-cuadrado de Pearson
Correccin por cont inuidad
Razn de verosimilit udes
Asociacin lineal por lineal
N de casos vlidos
Valor gl
Sig. asintt ica
(bilat eral)
0 casillas (.0%) t ienen una frecuencia esperada inferior a 5. La
frecuencia mnima esperada es 283.91.
a.
Edad Caf/t Refresco Leche
21-34 26 95 18
35-35 41 40 20
>55 24 13 32

El uso de bebida ordenado con alimentos en un


restaurante es independiente de la edad del
consumidor? Se toma una muestra aleatoria de 309
clientes del restaurante de donde resulta el siguiente
cuadro de valores observados. Utilice alfa = 0.01 para
determinar si las dos variedades son independientes.
Ejemplo
Solucin
1.- Planteamiento de hiptesis

Ho : El tipo de bebida preferida es
independiente de la edad

H1 : El tipo de bebida preferida esta
relacionada con la edad
e
e o
f
f f

2
2
) (

2.- Estadstico de Prueba


3.- Nivel de significacin: = 0.01
Tabla de contingencia Edad * Bebida
26 95 18 139
43.8 71.2 24.0 139.0
41 40 20 101
31.8 51.7 17.5 101.0
24 13 12 49
15.4 25.1 8.5 49.0
91 148 50 289
91.0 148.0 50.0 289.0
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
21-34
35-45
>=55
Edad
Total
Caf /T Ref resco Leche
Bebida
Total
Pruebas de chi-cuadrado
34.438
a
4 .000
35.441 4 .000
3.745 1 .053
289
Chi-cuadrado de Pearson
Razn de verosimilitudes
Asociacin lineal por
lineal
N de casos vlidos
Valor gl
Sig. asinttica
(bilateral)
0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mnima esperada es 8.48.
a.
Decisin

Las dos variables, bebida preferida y edad, no son
independientes. El tipo de bebida que un cliente
ordena con alimentos est relacionada con la edad y
depende de est.
HOMOGENEIDAD
Se extraen Muestras Independientes de
varias poblaciones y se prueban para ver
si son homogneas con respecto a algn
criterio de clasificacin.
Un conjunto de Totales Marginales Son
Fijos mientras que los otros marginales
son Aleatorios.
Ejemplo
Con el fin de probar la efectividad de una vacuna
contra cierta enfermedad, se realizo un experimento
observando a 200 personas, 110 de ellas vacunadas y
las otras 90 sin vacunar.
Presentan los datos evidencia suficiente como para
indicar que la proporcin de personas vacunadas que
contrajeron la enfermedad no es la misma que la
proporcin de personas que no se vacunaron y que
contrajeron la enfermedad
Los resultados obtenidos se muestran en el siguiente
cuadro.
Contrajeron Enf. No contrajeron la enf.
Vacunados 9 101
No vacunados 4 86
Datos
Resultados:
1.- Planteamiento de hiptesis
Ho: P
1
= P
2

H1 : P
1
diferente de P
2

donde:
P1 = Proporcin de vacunados que contraen
la enfermedad

P2 = Proporcin de no vacunados que
contraen la enfermedad
Resultados
Pruebas de chi-cuadrado
1.138
b
1 .286
.606 1 .436
1.175 1 .278
.391 .220
1.132 1 .287
200
Chi-cuadrado de Pearson
Correccin por
continuidad
a
Razn de verosimilitudes
Estadstico exacto de
Fisher
Asociacin lineal por
lineal
N de casos vlidos
Valor gl
Sig. asinttica
(bilateral)
Sig. exacta
(bilateral)
Sig. exacta
(unilateral)
Calculado slo para una tabla de 2x2.
a.
0 casillas (.0%) tienen una f recuencia esperada inf erior a 5. La f recuencia mnima esperada
es 5.85.
b.
Tabla de contingencia Vacunados * Enferm
9 101 110
7.2 102.9 110.0
4 86 90
5.9 84.2 90.0
13 187 200
13.0 187.0 200.0
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Si
No
Vacunados
Total
Contrajo No contrajo
Enf erm
Total
Decisin

Como p-valor =0.286 es mayor que 0.05 (alfa)
podemos indicar que no existe suficiente
evidencia para aceptar que hay diferencias
entre las proporciones P
1
y P
2
Prueba de Bondad de Ajuste
Los procedimientos de prueba de hiptesis que se han
presentado en captulos anteriores estn diseados para
problemas en los que se conoce la poblacin o o
distribucin de probabilidad, y la hiptesis involucra los
parmetros de la distribucin.
A menudo se encuentra otra clase de hiptesis: no se sabe
cul es la distribucin de la poblacin, y se desea probar la
hiptesis de que una distribucin en particular ser un
modelo satisfactorio de la poblacin.
Por ejemplo:
Probar la hiptesis de que la poblacin tiene
comportamiento normal, Poisson,.exponencial etc.
El procedimiento general para realizar la prueba es:

1.- Formulacin de la hiptesis
Ho: Los datos de la muestra se ajustan a la distribucin terica escogida
H1: Los datos de la muestra no se ajustan a la distribucin terica escogida

2.- Fijar el nivel de significacin

3.- La estadstica de prueba
donde:
Ei = npi
Oi = observado
p = nmero de parmetros estimados a partir de la muestra
K = nmero de categoras o clases
pi = probabilidad

4.- Determinar la regin crtica: rechazar Ho si:
caso contrario no se rechaza

5.- Decisin y conclusin
Nota: si alguna frecuencia esperada es menor que 5, se debe eliminar esa clase,
Y sumar la frecuencia observada a una clase contigua.


2
1 , 1
2

p k calc

k
i
Ei
Ei Oi
1
2
2
) (


BONDAD DE AJUSTE

Se utiliza para la comparacin de la distribucin de
una muestra con alguna distribucin terica que se
supone describe a la poblacin de la cual se extrajo.

H
o
: La variable tiene comportamiento normal

H
1
: La variable no tiene comportamiento normal

Ejemplo:
Los siguientes porcentajes provienen de una encuesta
nacional sobre las edades de compradores de msica
pregrabada. Una encuesta local produjo los valores y la
evidencia de los datos observados, indica que debemos
rechazar la distribucin de la encuesta nacional para
compradores locales de msica pregrabada? Utilice
alfa=0.01
Solucin:
Ho : La variable edad tiene comportamiento normal
H1 : La variable edad no tiene comportamiento normal
Resultados
Como p-valor es 0.025 es menor que 0.05, rechazamos la
hiptesis nula. Es decir, la variable edad no tiene
comportamiento normal.
edad
23 15.6 7.4
9 15.6 -6.6
14 15.6 -1.6
10 15.6 -5.6
22 15.6 6.4
78
15-19
20-24
25-29
30-34
>=35
Total
N observado N esperado Residual
Estadsticos de contr aste
11.103
4
.025
Chi-cuadrado
a
gl
Sig. asintt.
edad
0 casillas (.0%) tienen f recuencias
esperadas menores que 5. La f recuencia
de casilla esperada mnima es 15.6.
a.

You might also like