Professional Documents
Culture Documents
Cuadrado
Miguel A. Villa Z.
Estn relacionados los hbitos de lectura con el sexo del lector? Estn relacionadas las calificaciones obtenidas con el nmero de faltas? Es independiente la opinin sobre la poltica exterior de la poltica partidista? Es independiente el sexo de una persona de su preferencia en colores? Est relacionado el sexo con tener una educacin universitaria?
Son independientes el tamao de una familia y el nivel de educacin de los padres? Est relacionado el desempleo incremento de la criminalidad? con el
Objetivo
El objetivo general de este tpico es que se comprenda las dos tcnicas estadsticas empleadas para analizar datos categricos, con lo cual podr:
Analizar datos usando la prueba de Ji cuadrado de independencia Comprender la prueba ji cuadrado de bondad de ajuste y cmo usarla
Usar la prueba homogeneidad Ji cuadrado para
UNA VARIABLE
DOS VARIABLES
PRUEBA DE INDEPENDENCIA
PRUEBA DE HOMOGENEIDAD
Prueba de Independencia, Se usa para analizar la frecuencia de dos variables con categoras mltiples para determinar si las dos variables son independientes o no.
Por ejemplo: El tipo de refresco preferido por un consumidor es independiente de su grupo etreo?
El estado nutricional esta asociado con el desempeo acadmico?
Los datos de variables cualitativa o categricas representan atributos o categoras y se organizan en tablas llamadas tablas de contingencia o tablas de clasificacin cruzada.
Tabla de contingencia
Una Tabla de contingencia con r filas y c columnas tiene la siguiente forma:
Donde:
Oi j : es el nmero de sujetos que tienen las caractersticas Ai y Bj a la vez. Ri : (i = 1,,r) es la suma de la i-sima fila de la tabla. Es decir, es el total de sujetos que poseen la caracterstica Ai. Cj :(j = 1,,c) es la suma de la j-sima columna de la tabla. Es decir, es el total de sujetos que poseen la caracterstica Bj. n : representa el total de observaciones tomadas.
La pregunta es:
Existir o no relacin entre las variables A y B?, es decir, si A y B son o no independientes.
Formulacin de hiptesis:
Hiptesis nula (H0) : Las variables X e Y son independientes, ( X e Y no estn relacionadas) Hiptesis alternativa (H1) : Las variables X e Y no son independientes, (X e Y estn relacionadas)
Pruebas de Independencia
La estadistica Ji-Cuadrado esta dado por:
2
i 1 j1 r c
(Oij E ij ) 2 E ij
es la frecuencia esperada de la
La frecuencia esperada es aquella que debe ocurrir para que la hiptesis nula sea aceptada.
La prueba estadstica se distribuye como una Ji-Cuadrado con (r-1)*(c-1) grados de libertad.
2 2 La hiptesis Nula se rechaza si , c alc 1
Ejemplo:
Se toma una muestra aleatoria de 2200 familias y se les clasifica en una tabla de doble entrada segn su nivel de ingresos (alto, medio o bajo) y el tipo de colegio a la que envan sus hijos. La siguiente tabla muestra los resultados obtenidos:
TIPO DE COLEGIO
INGRESOS
A un nivel de significancia del 1% hay razn para creer que el ingreso y el tipo de colegio no son variables independientes?
Ejemplo
El uso de bebida ordenado con alimentos en un restaurante es independiente de la edad del consumidor? Se toma una muestra aleatoria de 309 clientes del restaurante de donde resulta el siguiente cuadro de valores observados. Utilice alfa = 0.01 para determinar si las dos variedades son independientes.
Edad 21-34 35-35 >55 Caf/t 26 41 24 Refresco 95 40 13 Leche 18 20 32
Solucin
1.- Planteamiento de hiptesis
Ho
H1
preferida
es
2 ( f f ) o e
fe
= 0.01
Decisin
Las dos variables, bebida preferida y edad, no son independientes. El tipo de bebida que un cliente ordena con alimentos est relacionada con la edad y depende de est.
HOMOGENEIDAD Se extraen Muestras Independientes de varias poblaciones y se prueban para ver si son homogneas con respecto a algn criterio de clasificacin. Un conjunto de Totales Marginales Son Fijos mientras que los otros marginales son Aleatorios.
Ejemplo
Con el fin de probar la efectividad de una vacuna contra cierta enfermedad, se realizo un experimento observando a 200 personas, 110 de ellas vacunadas y las otras 90 sin vacunar. Presentan los datos evidencia suficiente como para indicar que la proporcin de personas vacunadas que contrajeron la enfermedad no es la misma que la proporcin de personas que no se vacunaron y que contrajeron la enfermedad Los resultados obtenidos se muestran en el siguiente cuadro.
Contrajeron Enf. 9 4 No contrajeron la enf. 101 86
Datos
Vacunados No vacunados
1.- Planteamiento de hiptesis Ho: P1 = P2 H1 : P1 diferente de P2 donde: P1 = Proporcin de vacunados que contraen la enfermedad P2 = Proporcin de no vacunados que contraen la enfermedad
Resultados:
Decisin
Como p-valor =0.286 es mayor que 0.05 (alfa) podemos indicar que no existe suficiente evidencia para aceptar que hay diferencias entre las proporciones P1 y P2
El procedimiento general para realizar la prueba es: 1.- Formulacin de la hiptesis Ho: Los datos de la muestra se ajustan a la distribucin terica escogida H1: Los datos de la muestra no se ajustan a la distribucin terica escogida 2.- Fijar el nivel de significacin
2 k 3.- La estadstica de prueba ( Oi Ei ) donde: 2 Ei = npi Ei i 1 Oi = observado p = nmero de parmetros estimados a partir de la muestra K = nmero de categoras o clases pi = probabilidad
2 2 calc 1 , k p 1
5.- Decisin y conclusin Nota: si alguna frecuencia esperada es menor que 5, se debe eliminar esa clase, Y sumar la frecuencia observada a una clase contigua.
BONDAD DE AJUSTE
Se utiliza para la comparacin de la distribucin de una muestra con alguna distribucin terica que se supone describe a la poblacin de la cual se extrajo. Ho : La variable tiene comportamiento normal
Ejemplo:
Los siguientes porcentajes provienen de una encuesta nacional sobre las edades de compradores de msica pregrabada. Una encuesta local produjo los valores y la evidencia de los datos observados, indica que debemos rechazar la distribucin de la encuesta nacional para compradores locales de msica pregrabada? Utilice alfa=0.01
Solucin:
Ho H1 : : La variable edad tiene comportamiento normal La variable edad no tiene comportamiento normal
e dad N observado 15-19 20-24 25-29 30-34 >=35 Total 23 9 14 10 22 78 N esperado 15.6 15.6 15.6 15.6 15.6 Residual 7.4 -6.6 -1.6 -5.6 6.4
Chi-c uadrado gl Sig. as intt.
a
Es tadsticos de contr as te edad 11.103 4 .025 a. 0 casillas (.0%) tienen f rec uencias es peradas menores que 5. La f recuencia de c as illa es perada mnima es 15.6.
Resultados Como p-valor es 0.025 es menor que 0.05, rechazamos la hiptesis nula. Es decir, la variable edad no tiene comportamiento normal.