Professional Documents
Culture Documents
nellypillhuaman@gmail.com
Estn relacionados los hbitos de lectura con el sexo
del lector?
Estn relacionadas las calificaciones obtenidas con
el nmero de faltas?
Es independiente la opinin sobre la poltica
exterior de la poltica partidista?
Es independiente el sexo de una persona de su
preferencia en colores?
Est relacionado el sexo con tener una educacin
universitaria?
Son independientes el tamao de una familia
y el nivel de educacin de los padres?
Est relacionado el desempleo con el
incremento de la criminalidad?
El precio est asociado con la calidad de un
producto electrodomstico?
El estado nutricional esta asociado con el
desempeo acadmico?
Estn relacionadas las enfermedades del
corazn con el tabaquismo?
Objetivo
El objetivo general de este tpico es que se
comprenda las dos tcnicas estadsticas
empleadas para analizar datos categricos,
con lo cual podr:
Analizar datos usando la prueba de Ji
cuadrado de independencia
Comprender la prueba ji cuadrado de
bondad de ajuste y cmo usarla
Usar la prueba Ji cuadrado para
homogeneidad
PRUEBA DE BONDAD
DE AJUSTE
PRUEBA DE
INDEPENDENCIA
PRUEBA DE
HOMOGENEIDAD
DOS VARIABLES
UNA VARIABLE
PRUEBA CHI CUADRADO
Prueba de Independencia,
Se usa para analizar la frecuencia de dos
variables con categoras mltiples para
determinar si las dos variables son
independientes o no.
Por ejemplo:
El tipo de refresco preferido por un
consumidor es independiente de su grupo
etreo?
El estado nutricional esta asociado con el
desempeo acadmico?
determinar si la regin geogrfica es
independiente del tipo de inversin
financiera?
La prueba Chi cuadrado de independencia
es particularmente til para analizar datos
de variables cualitativas nominales.
Los datos de variables cualitativa o categricas representan
atributos o categoras y se organizan en tablas llamadas
tablas de contingencia o tablas de clasificacin cruzada.
Tabla de contingencia
Una Tabla de contingencia con r filas y c columnas tiene la
siguiente forma:
Donde:
Oi j : es el nmero de sujetos que tienen las caractersticas
Ai y Bj a la vez.
Ri : (i = 1,,r) es la suma de la i-sima fila de la tabla.
Es decir, es el total de sujetos que poseen la
caracterstica Ai.
Cj :(j = 1,,c) es la suma de la j-sima columna de la
tabla. Es decir, es el total de sujetos que poseen la
caracterstica Bj.
n : representa el total de observaciones tomadas.
Formulacin de hiptesis:
Hiptesis nula (H
0
) : Las variables X e Y son
independientes, ( X e Y no estn relacionadas)
Hiptesis alternativa (H
1
) : Las variables X e Y no son
independientes, (X e Y estn relacionadas)
La pregunta es:
Existir o no relacin entre las variables A y
B?, es decir, si A y B son o no independientes.
Pruebas de Independencia
La estadistica Ji-Cuadrado esta dado por:
donde
Oij : es la frecuencia observada de la celda que est en la
fila i, columna j,
es la frecuencia esperada de la
celda (i, j).
r
1 i
c
1 j
ij
2
ij ij 2
E
) E O (
n
C R
E
j i
ij
*
calc
Ejemplo:
Se toma una muestra aleatoria de 2200 familias y se les clasifica
en una tabla de doble entrada segn su nivel de ingresos (alto,
medio o bajo) y el tipo de colegio a la que envan sus hijos. La
siguiente tabla muestra los resultados obtenidos:
A un nivel de significancia del 1% hay razn para creer que
el ingreso y el tipo de colegio no son variables
independientes?
TOTAL
INGRESOS PRIVADO PBLICO
Alto 506 494 1000
Medio 438 162 600
Bajo 215 385 600
TOTAL 1159 1041 2200
TIPO DE COLEGIO
Primero: ingresar los datos: ya tabulados de la siguiente
manera
Segundo: ponderar las frecuencias, de la siguiente forma:
Tercero: realizar el proceso de pedido de la prueba Chi cuadrado
Solucin:
Las hiptesis a plantearse son las siguientes:
Ho: No hay relacin entre el ingreso y el tipo de colegio
H1: Si hay relacin entre el ingreso y el tipo de colegio.
Interpretacin: Como el P-value es
menor que 0.01 se puede concluir que
hay relacin entre el nivel de ingreso y el
tipo de colegio.
Tabl a de conti nge nci a Ti po_Col * Cl as e_s oc
506 438 215 1159
526.8 316.1 316.1 1159.0
494 162 385 1041
473.2 283.9 283.9 1041.0
1000 600 600 2200
1000.0 600.0 600.0 2200.0
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
Recuento
Frecuencia esperada
1.00
2.00
Tipo_Col
Tot al
1.00 2.00 3.00
Clase_soc
Tot al
Prue bas de chi -cuadrado
169.429
a
2 .000
174.511 2 .000
16.917 1 .000
2200
Chi-cuadrado de Pearson
Correccin por cont inuidad
Razn de verosimilit udes
Asociacin lineal por lineal
N de casos vlidos
Valor gl
Sig. asintt ica
(bilat eral)
0 casillas (.0%) t ienen una frecuencia esperada inferior a 5. La
frecuencia mnima esperada es 283.91.
a.
Edad Caf/t Refresco Leche
21-34 26 95 18
35-35 41 40 20
>55 24 13 32
2
2
) (
p k calc
k
i
Ei
Ei Oi
1
2
2
) (
BONDAD DE AJUSTE
Se utiliza para la comparacin de la distribucin de
una muestra con alguna distribucin terica que se
supone describe a la poblacin de la cual se extrajo.
H
o
: La variable tiene comportamiento normal
H
1
: La variable no tiene comportamiento normal
Ejemplo:
Los siguientes porcentajes provienen de una encuesta
nacional sobre las edades de compradores de msica
pregrabada. Una encuesta local produjo los valores y la
evidencia de los datos observados, indica que debemos
rechazar la distribucin de la encuesta nacional para
compradores locales de msica pregrabada? Utilice
alfa=0.01
Solucin:
Ho : La variable edad tiene comportamiento normal
H1 : La variable edad no tiene comportamiento normal
Resultados
Como p-valor es 0.025 es menor que 0.05, rechazamos la
hiptesis nula. Es decir, la variable edad no tiene
comportamiento normal.
edad
23 15.6 7.4
9 15.6 -6.6
14 15.6 -1.6
10 15.6 -5.6
22 15.6 6.4
78
15-19
20-24
25-29
30-34
>=35
Total
N observado N esperado Residual
Estadsticos de contr aste
11.103
4
.025
Chi-cuadrado
a
gl
Sig. asintt.
edad
0 casillas (.0%) tienen f recuencias
esperadas menores que 5. La f recuencia
de casilla esperada mnima es 15.6.
a.